Post on 24-Oct-2021
Leandro de Azevedo Gonzalez
Regressatildeo Logiacutestica e suas Aplicaccedilotildees
Satildeo Luiacutes
2018
Leandro de Azevedo Gonzalez
Regressatildeo Logiacutestica e suas Aplicaccedilotildees
Monografia apresentada ao curso de Ciecircnciada Computaccedilatildeo da Universidade Federal doMaranhatildeo como parte dos requisitos neces-saacuterios para obtenccedilatildeo do grau de Bacharel emCiecircncia da Computaccedilatildeo
Universidade Federal do Maranhatildeo
Centro de Ciecircncias Exatas e Tecnoloacutegicas
Curso de Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo
Orientador Prof Dr Ivo Joseacute da Cunha Serra
Satildeo Luiacutes
2018
Leandro de Azevedo GonzalezRegressatildeo Logiacutestica e suas Aplicaccedilotildees Leandro de Azevedo Gonzalez ndash Satildeo Luiacutes
201845 p
Orientador Prof Dr Ivo Joseacute da Cunha Serra
Monografia (Graduaccedilatildeo) ndash Universidade Federal do MaranhatildeoCentro de Ciecircncias Exatas e TecnoloacutegicasCurso de Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2018
1 Mineraccedilatildeo de Dados 2 Regressatildeo Logiacutestica 2 Aplicaccedilotildees de RegressatildeoLogiacutestica I Ivo Joseacute da Cunha Serra II Universidade Federal do Maranhatildeo IIICiecircncia da Computaccedilatildeo IV Tiacutetulo
Aos meus pais
Agradecimentos
Em especial aos meus pais Lorenzo Gonzalez Ruiz e Erciacutelia Maria Menezes de
Azevedo que satildeo os maiores incentivadores dos meus estudos por todo o esforccedilo dedicado
para que eu tivesse uma boa educaccedilatildeo
Ao meu orientador professor Ivo Joseacute da Cunha Serra pela sua orientaccedilatildeo elogios
conselhos confianccedila e empenho depositados em mim e no desenvolvimento deste trabalho
Agradeccedilo tambeacutem aos professores Tiago e Samyr que gentilmente aceitaram o convite
para a Banca Examinadora deste trabalho
Ao corpo docente do curso de Ciecircncia da Computaccedilatildeo pelo ensino e contribuiccedilatildeo
para a minha formaccedilatildeo acadecircmica e agrave todos os professores pelos quais eu passei desde o
ensino infantil
Aos familiares e amigos que estiveram presentes durante este processo Aos cole-
gas discentes do curso de Ciecircncia da Computaccedilatildeo os quais dividimos as dificuldades e
compartilhamos o aprendizado
Resumo
Devido ao crescente volume de dados computacionais que satildeo produzidos e armazenados
teacutecnicas de mineraccedilatildeo de dados tornam-se cada vez mais necessaacuterias para a procura de
padrotildees relevantes de informaccedilotildees nestes grandes volumes Este trabalho descreve e analisa
a regressatildeo logiacutestica que eacute uma teacutecnica para mineraccedilatildeo de dados de resposta categoacuterica
nas suas formas binaacuteria e muacuteltipla Satildeo discutidos meacutetodos tanto para a estimaccedilatildeo do
modelo de regressatildeo como para a avaliaccedilatildeo do modelo gerado Exemplos de aplicaccedilatildeo
da regressatildeo logiacutestica satildeo apresentados na aacuterea financeira ambiental e epidemioloacutegica os
quais mostram o possiacutevel uso desta teacutecnica nestas diferentes aacutereas e a destacam como uma
forte ferramenta de anaacutelise de dados de resposta categoacuterica que possibilita a estimaccedilatildeo da
probabilidade de ocorrecircncia de eventos assim como a avaliaccedilatildeo dos fatores que contribuem
para o mesmo
Palavras-chave Mineraccedilatildeo de Dados Regressatildeo Logiacutestica Aplicaccedilotildees de Regressatildeo
Logiacutestica
Abstract
Due to the increasing volume of computational data that is produced and stored data
mining techniques are becoming each more time more required to the search of relevant
information patterns in these large volumes This paper describes and analyses the logistic
regression which is a technique for data mining of categorical response in its binary and
multiple forms Methods are discussed both for the estimation of the regression model
and for the evaluation of the model generated Examples of the application of logistic
regression are presented in the financial environmental and epidemiological areas which
show the possible use of this technique in these different areas and stand out as a strong
tool of data analysis of categorical response which allows estimation of the probability of
occurrence of events as well as the evaluation of the contributing factors to them
Keywords Data Mining Logistic Regression Logistic Regression Applications
Lista de ilustraccedilotildees
Figura 1 ndash Graacutefico da funccedilatildeo logit(p) 17
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p) 18
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado 19
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell 25
Figura 5 ndash Componentes da mudanccedila ambiental global 32
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000 35
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados 36
Lista de tabelas
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo 31
Tabela 2 ndash Uso e Cobertura do solo 33
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico 36
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo 39
Lista de abreviaturas e siglas
BAP Bacia Hidrograacutefica do Alto Paraguai
OR Odds Ratio
Sumaacuterio
1 INTRODUCcedilAtildeO 12
11 Objetivos 13
111 Objetivos Especiacuteficos 13
12 Organizaccedilatildeo do Trabalho 13
2 REGRESSAtildeO LOGIacuteSTICA 14
21 Definiccedilatildeo 15
22 A Funccedilatildeo Logit 16
23 Regressatildeo Logiacutestica Binaacuteria 19
231 Estimando os coeficientes do modelo de regressatildeo 20
24 Regressatildeo Logiacutestica Muacuteltipla 21
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico 23
251 Teste da Razatildeo de Verossimilhanccedila 23
252 Teste de Wald 24
253 Pseudo R2 de Cox e Snell 24
26 Consideraccedilotildees Finais 25
3 APLICACcedilOtildeES DE REGRESSAtildeO LOGIacuteSTICA 27
31 Gestatildeo de creacutedito 27
311 Risco de creacutedito 28
312 Regressatildeo logiacutestica para anaacutelise de creacutedito 28
313 Aplicaccedilatildeo Exemplo 30
32 Anaacutelise ambiental 31
321 Regressatildeo logiacutestica na anaacutelise ambiental 34
322 Aplicaccedilatildeo Exemplo 35
33 Oacutebito Neonatal 37
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal 38
332 Aplicaccedilatildeo Exemplo 38
34 Consideraccedilotildees Finais 40
4 CONCLUSAtildeO 41
REFEREcircNCIAS 43
12
1 Introduccedilatildeo
O presente trabalho apresenta a regressatildeo logiacutestica que consiste em uma teacutecnica
de mineraccedilatildeo de dados A mineraccedilatildeo de dados eacute uma ferramenta de apoio para tomada
de decisatildeo baseada em dados computacionais dos quais pretende-se extrair informaccedilotildees
relevantes de uma grande base de dados de forma a buscar vantagens competitivas ou
elaboraccedilatildeo de estrateacutegia
Estes conjuntos de grandes volumes de dados representam um custo tanto de
armazenamento quanto de processamento portanto eacute possiacutevel afirmar que a ideia de
adquirir conhecimento automaticamente destes grandes volumes atraveacutes da mineraccedilatildeo de
dados eacute altamente beneacutefico
Este processo pode empregar algoritmos de inteligecircncia artificial anaacutelise estatiacutestica
recuperaccedilatildeo de informaccedilatildeo reconhecimento de padrotildees e outros Segundo Hosmer e
Lemeshow (2000) meacutetodos de regressatildeo tem se tornado um componente integral para
qualquer anaacutelise de dados interessada em descrever a relaccedilatildeo entre uma variaacutevel resposta
(dependente) e uma ou mais variaacuteveis explicativas (independentes)
A principal diferenccedila da regressatildeo logiacutestica para a regressatildeo linear eacute que a variaacutevel
dependente na regressatildeo logiacutestica eacute categoacuterica e de acordo com Agresti (2002) o modelo
de regressatildeo logiacutestica eacute o modelo mais importante para dados de resposta categoacuterica
Aleacutem da variaacutevel dependente ser categoacuterica ela eacute frequentemente binaacuteria (dicotocirc-
mica) assumindo portanto dois valores que satildeo normalmente tratados como ldquosucessordquo
ou ldquofracassordquo Estes dois valores representam um evento que depende do estudo de caso
podendo ser por exemplo ou a concessatildeo ou a natildeo concessatildeo de creacutedito na aacuterea financeira
ou a presenccedila ou a natildeo presenccedila de uma doenccedila nos estudos epidemioloacutegicos ou a compra
ou a natildeo compra de um determinado produto na aacuterea de marketing entre outras diversas
possibilidades
Aplicaccedilotildees de anaacutelise de creacutedito por exemplo podem utilizar a regressatildeo logiacutestica
para calcular a probabilidade de um indiviacuteduo ser merecedor da concessatildeo de creacutedito
Informaccedilotildees pessoais como salaacuterio emprego tipo de moradia satildeo exemplos de possiacuteveis
variaacuteveis que podem ser levadas em consideraccedilatildeo Isto permite natildeo apenas a estimaccedilatildeo
dessa probabilidade mas tambeacutem como traccedilar o perfil de um bom ou mau pagador
Haacute diversas teacutecnicas de mineraccedilatildeo de dados cada uma com suas particularidades
a escolha da tarefa a ser utilizada eacute um importante passo para a obtenccedilatildeo de resultados
satisfatoacuterios dentro de um determinado estudo isto soacute eacute possiacutevel com a compreensatildeo da
mesma e de sua capacidade
Capiacutetulo 1 Introduccedilatildeo 13
Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como
eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de
meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes
domiacutenios nos quais esta teacutecnica pode ser aplicada
11 Objetivos
O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como
ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio
de exemplos de aplicaccedilotildees
111 Objetivos Especiacuteficos
Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos
bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos
bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica
bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental
e epidemioloacutegica apontando seus resultados
12 Organizaccedilatildeo do Trabalho
O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2
apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica
a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo
O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito
neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas
aacutereas
Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do
que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado
e as consideraccedilotildees finais
14
2 Regressatildeo Logiacutestica
A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis
em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para
agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam
de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)
Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste
em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado
de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos
preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis
independentes ou explicativas
A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel
dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas
que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel
dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo
1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja
indicando dois possiacuteveis valores ou categorias
A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo
fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica
eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as
variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas
Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias
da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de
determinado evento assim como a influecircncia de cada variaacutevel independente no evento
estudado
Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-
zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais
diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de
voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de
outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados
categoacutericos
Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica
binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico
e quais os testes que avaliam a significatildencia de um modelo estimado
Capiacutetulo 2 Regressatildeo Logiacutestica 15
21 Definiccedilatildeo
A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir
a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores
tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais
variaacuteveis independentes contiacutenuas eou binaacuterias
Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade
de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria
Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio
do sono potencialmente grave em que a pessoa para de respirar por alguns segundos
diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio
mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para
esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele
tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a
ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As
variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica
propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa
prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade
desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo
logiacutestica
O modelo de regressatildeo logiacutestica permite
bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis
independentes que podem ser categoacutericas ou contiacutenuas
Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do
sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos
ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado
seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor
seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de
ter apneia do sono
bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada
aleatoriamente contra a probabilidade do evento natildeo ocorrer
Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia
A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de
um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp
1 minus pque
eacute chamada de chance Assim temos0 750 25
= 3 isto significa que uma pessoa nessas
caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter
Capiacutetulo 2 Regressatildeo Logiacutestica 16
bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria
Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel
peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel
idade natildeo contribui tanto para a eficaacutecia do mesmo
bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma
categoria determinada
A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos
ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio
A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes
casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade
desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da
distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)
Y =
1 se ocorrer sucesso
0 se ocorrerfracasso
A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p
Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma
combinaccedilatildeo linear de variaacuteveis independentes
22 A Funccedilatildeo Logit
Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue
a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave
distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na
regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas
de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma
combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p
Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio
uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar
qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1
A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural
o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21
ln(odds) rArr ln
(
p
1 minus p
)
(21)
Fonte Adaptado de (POWERS XIE 1999)
Capiacutetulo 2 Regressatildeo Logiacutestica 17
Figura 1 ndash Graacutefico da funccedilatildeo logit(p)
Fonte Produzido pelo autor
Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo
vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica
comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =
indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro
desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito
uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste
modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou
inferior a 0
Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo
o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades
satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0
No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas
queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa
da funccedilatildeo logit A partir da equaccedilatildeo(21) temos
logitminus1(α) =1
1 + eminusα=
eα
1 + eα(22)
Adaptado de (MESQUITA 2014)
Capiacutetulo 2 Regressatildeo Logiacutestica 18
α = combinaccedilatildeo linear
No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus
coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y
ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)
Fonte Produzido pelo autor
Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas
90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao
inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y
A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma
parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila
eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x
causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de
mudanccedila de estado da variaacutevel y em funccedilatildeo de x
Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo
entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos
que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento
aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem
sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da
inversa do logit na Figura 2
Capiacutetulo 2 Regressatildeo Logiacutestica 19
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado
Fontelthttpsgooglnwec4Qgt
23 Regressatildeo Logiacutestica Binaacuteria
A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica
em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e
tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens
de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute
dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E
neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por
exemplo
Digamos entatildeo que
g(x) = β0 + β1x1 (23)
Fonte (FIGUEIRA 2006)
seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes
e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada
Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)
ln
(
p
1 minus p
)
= β0 + β1x1
Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p
Pra isso utiliza-se o antilogaritmo
Capiacutetulo 2 Regressatildeo Logiacutestica 20
p
1 minus p= eβ0+β1
Seguindo com o procedimento para isolar p obtemos
p =eβ0+β1x1
1 + eβ0+β1x1
=1
1 + eminus(β0+β1x1)(24)
Fonte Adaptado de (MESQUITA 2014)
A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a
funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade
estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta
equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima
verossimilhanccedila conforme explicado na subseccedilatildeo seguinte
231 Estimando os coeficientes do modelo de regressatildeo
Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1
do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A
partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar
os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que
maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima
verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem
maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra
Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =
π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado
em xi
As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de
verossimilhanccedila eacute
L(β) =nprod
i=1
π(xi)yi [1 minus π(xi)]1minusyi (25)
Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo
log-verossimilhanccedila
l(β) = ln[L(β)] =nsum
i=1
[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)
Capiacutetulo 2 Regressatildeo Logiacutestica 21
O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-
metros (β0 β1)
part ln[L(β)]partβ0
=nsum
i=1
[yi minus π(xi)] (27)
part ln[L(β)]partβ1
=nsum
i=1
xi[yi minus π(xi)] (28)
Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees
(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de
variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa
que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a
sua variaacutevel independente xi
As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar
mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado
que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um
procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente
novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores
ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos
repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila
Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada
por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente
complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos
como SPSS1 SAS2 entre outros
24 Regressatildeo Logiacutestica Muacuteltipla
A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que
a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute
mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a
variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente
eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o
peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo
logiacutestica muacuteltipla
Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa
semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt
Capiacutetulo 2 Regressatildeo Logiacutestica 22
apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo
com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para
o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla
como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria
Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos
considerar este conjunto denotado por X = (x1 x2 xt)
Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para
este conjunto de variaacuteveis eacute definida como
g(x) = β0 + β1x1 + β2x2 + + βtxt (29)
Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo
ln
(
p
1 minus p
)
= β0 + β1x1 + β2x2 + + βtxt (210)
Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-
ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica
muacuteltipla para a probabilidade estimada p
p =eβ0+β1x1+β2x2++βtxt
1 + eβ0+β1x1+β2x2++βtxt
=1
1 + eminus(β0+β1x1+β2x2++βtxt)(211)
A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que
π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis
independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila
eacute obtida como
l(β) =nsum
i=1
[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)
As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas
equaccedilotildees 212 e 213
partl(β)partβ0
=nsum
i=1
yi minusnsum
i=1
πi = 0 (213)
partl(β)partβj
=nsum
i=1
xijyi minusnsum
i=1
xijπi = 0 para j isin 1 t (214)
Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)
πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila
Capiacutetulo 2 Regressatildeo Logiacutestica 23
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das
variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica
para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas
com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes
mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2
de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)
Veremos a seguir cada um deles
251 Teste da Razatildeo de Verossimilhanccedila
Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado
Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila
Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a
β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de
(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo
de verossimilhanccedila eacute expressa da seguinte forma
D = minus2 ln
[
verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado
]
(215)
D = minus2nsum
i=1
[
yi ln
(
πi
yi
)
+ (1 minus yi) ln
(
1 minus πi
1 minus yi
)]
(216)
O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado
corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D
tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o
ajuste do modelo
Queremos testar as hipoacuteteses
H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0
Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados
a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese
alternativa H1
Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de
D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela
inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de
G = D
(
modelo sem a variaacutevelmodelo com a variaacutevel
)
(217)
Capiacutetulo 2 Regressatildeo Logiacutestica 24
Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-
tiva para o modelo
252 Teste de Wald
O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da
significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-
tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada
variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel
dependente
Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-
los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do
objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou
no grupo da natildeo ocorrecircncia do evento (Y = 0)
O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de
um coeficiente e a estimativa do seu erro padratildeo
Wj =βj
var(βj)(218)
Fonte (BATISTA 2015)
Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA
2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos
ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo
quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de
Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado
253 Pseudo R2 de Cox e Snell
A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de
um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo
logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo
linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica
onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato
de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa
similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2
Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive
citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor
Capiacutetulo 2 Regressatildeo Logiacutestica 25
em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a
regressatildeo linear
Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um
dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na
equaccedilatildeo 217
R2 = 1 minus
(
L(β)0
L(β)M
)
2n (219)
Fonte (BATISTA 2015)
Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para
um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A
racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que
depende da probabilidade assumida pelos modelos com e sem preditores
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell
Fonte FIGUEIRA (2006)
O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute
menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente
De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-
dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No
exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40
Este mecanismo pode ser usado para comparar o desempenho de modelos concor-
rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais
elevado
26 Consideraccedilotildees Finais
Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de
dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente
dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de
Capiacutetulo 2 Regressatildeo Logiacutestica 26
variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta
teacutecnica
O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo
de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo
entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam
nos coeficientes que compotildeem o modelo
Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se
que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de
avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos
com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da
regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo
27
3 Aplicaccedilotildees de Regressatildeo Logiacutestica
Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela
primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras
aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias
Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica
ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou
o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este
trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos
envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede
Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de
regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer
e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo
para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria
administraccedilatildeo educaccedilatildeo ambiental e outros
Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de
regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de
creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente
31 Gestatildeo de creacutedito
Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute
muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu
reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou
pagamentos afirma Batista (2015)
Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou
retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de
creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado
atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade
destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante
miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e
concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo
estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento
em relaccedilatildeo agrave pontualidade e regularidade dos mesmos
A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando
no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28
eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)
311 Risco de creacutedito
No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma
transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras
lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito
O simples ato de emprestar uma quantia ou algum item a alguem envolve a
possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza
que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo
entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do
devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso
A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa
gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de
insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)
Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do
creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada
empresa
312 Regressatildeo logiacutestica para anaacutelise de creacutedito
Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de
modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes
para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo
com Gouvecirca Gonccedilalves e Mantovani (2013)
Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-
ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da
instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos
Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de
decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar
ganhos financeiros para a instituiccedilatildeo
A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por
exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade
e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees
qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de
pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam
classificar um perfil de adimplecircncia ou inadimplecircncia
Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29
passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos
90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real
Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit
scoring (CROOK EDELMAN THOMAS 2007)
A seguir veremos os passos para se construir um modelo de credit scoring utilizando
a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)
1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com
base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade
desta base de dados para resultar em um modelo de sucesso
2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da
variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem
variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se
aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente
bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo
devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica
3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute
sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente
neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes
devido agrave diferenccedila de tamanho
4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios
estatiacutesticos cada variaacutevel a ser utilizada no modelo
5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e
das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica
a fim de obter o modelo de regressatildeo
Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado
como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel
dependente binaacuteria Y pode assumir os valores
Y =
1 bom cliente
0 mau cliente
A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes
mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica
de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo
logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30
probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um
mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de
um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03
Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis
independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria
ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das
parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras
Destaca-se portanto que cada estudo oferece um resultado particular pois depende do
que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e
da poliacutetica de cada instituiccedilatildeo
Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito
pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia
aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a
cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado
obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e
consequentemente a perda do creacutedito
313 Aplicaccedilatildeo Exemplo
A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um
modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os
dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso
e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no
municiacutepio de Viccedilosa-MG
De acordo com os referidos autores a base amostral deste estudo foi composta
pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes
legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia
das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos
atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema
fornecido pela agecircncia bancaacuteria em estudo
A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos
clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que
tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise
de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de
relacionamento com o banco a renda o limite do cheque especial o estado civil e a
escolaridade
Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2
divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31
clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino
meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para
poacutes-graduccedilatildeo ou acima disto
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo
Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336
Fonte Adaptado de Ferreira Celso e Neto (2012)
Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos
atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na
Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados
Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento
de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste
cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1
representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na
equaccedilatildeo 31
p =1
1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)
Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e
Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que
clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores
observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e
maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo
agrave inadimplecircncia
32 Anaacutelise ambiental
O homem tem usado e modificado o solo haacute milhares de anos a fim de seu
proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura
urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender
a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32
Fatores como o crescimento populacional e a alta demanda por alimentos e outros
recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas
de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma
das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos
diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma
Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do
homem
Figura 5 ndash Componentes da mudanccedila ambiental global
Fonte VALENCIA (2008)
Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de
km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto
isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e
Foley (1999 apud VALENCIA 2008)
Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza
O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos
naturais dele para a realizaccedilatildeo das mesmas
A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas
do uso do solo
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33
bull Cobertura de solo
A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas
bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo
Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros
bull Uso do solo
O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo
Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem
do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso
do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas
executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo
com FAO (1998 apud VALENCIA 2008)
Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes
usos de solo podem ser realizados em uma mesma cobertura de solo assim como
diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como
mostrado na Tabela 2
Tabela 2 ndash Uso e Cobertura do solo
Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte
Fonte VALENCIA (2008)
bull Mudanccedilas do uso do solo
O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as
mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais
simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou
reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do
solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do
solo pode mudar mesmo se mantendo inalterado seu uso
Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas
de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do
solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente
relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers
(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34
uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras
agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade
a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades
humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes
no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os
dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por
sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra
321 Regressatildeo logiacutestica na anaacutelise ambiental
Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um
conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em
condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo
Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se
como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que
mais contribuem para a ocorrecircncia destas mudanccedilas
O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para
avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma
determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y
denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem
uso agriacutecola
Y =
1 aacutereas com uso agriacutecola
0 aacutereas sem uso agriacutecola
A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre
estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel
tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso
agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das
variaacuteveis independentes a serem consideradas na anaacutelise
A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem
de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados
ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por
exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute
encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes
Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)
que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo
meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35
devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites
florestais entre outros
A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma
aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis
independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo
(natildeo agriacutecola para agriacutecola)
322 Aplicaccedilatildeo Exemplo
O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia
Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo
de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este
estudo foi realizado por Mendes e Vega (2011)
Para a base amostral deste estudo o autor considerou imagens da BAP correspon-
dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a
gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou
aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-
pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a
transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os
pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000
Fonte Mendes e Vega (2011)
Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36
agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto
X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram
incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa
significacircncia para o modelo
A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico
com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de
regressatildeo logiacutestica pode ser observado na Figura 7
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico
Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia
anualTMA oC
Balanccedilo hiacutedricoclimaacutetico meacutedio anual
BHC mmano
Distacircncias para assedes urbanas de
municiacutepios brasileirosinseridos na bacia
D_URBMuacuteltiplos de
graus
Cotas topograacuteficas nabacia pelo lado
brasileiroTOPO m
Cotas topograacuteficasreclassificadas (le 150
m ge 150 m)TOPO_REC 1-2
Distacircncias paraestradas principais(pavimentadas e
federais) brasileirasinseridas na bacia
D_ESTRADAMuacuteltiplos de
graus
Distacircncias para asferrovias brasileirasinseridas na bacia
D_FERROMuacuteltiplos de
graus
Fonte Adaptado de Mendes e Vega (2011)
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados
Fonte Mendes e Vega (2011)
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37
Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute
categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-
ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em
aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e
facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-
mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento
estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas
33 Oacutebito Neonatal
O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias
incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os
sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes
Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias
incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de
neomorto
A mortalidade infantil pode ser considerada um dos melhores indicadores da
qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo
Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo
formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia
ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)
Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130
milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no
periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA
variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de
vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia
Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa
de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et
al 2005)
No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas
apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo
dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo
com as taxas de mortalidade poacutes-neonatal
Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal
teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que
possibilitem identificar os fatores de risco para o oacutebito neonatal
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal
Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-
geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo
consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do
que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos
do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et
al 2011)
A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar
a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer
niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias
separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo
Goldstein (2003)
Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito
neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada
A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em
crianccedilas com menos de 28 dias de vida
Y =
1 ocorrecircncia do oacutebito neonatal
0 natildeo ocorrecircncia do oacutebito neonatal
Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas
satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas
em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar
no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)
tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de
pessoas que moram no mesmo domiciacutelio entre outros
O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil
neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute
importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do
oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de
risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta
a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados
332 Aplicaccedilatildeo Exemplo
Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a
mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos
os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39
De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na
cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de
dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar
os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste
periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos
1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros
A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a
ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo
relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos
de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de
consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e
abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel
dependente foram consideradas estatisticamente significantes
Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-
nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo
varia de 0 a 10 e quanto mais proacuteximo de 10 melhor
Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves
dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4
informa o OR de quatro das variaacuteveis independentes inclusas neste estudo
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo
Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076
Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)
O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo
entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo
Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das
variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos
Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances
iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro
grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo
Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a
variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura
do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40
agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo
(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito
em comparaccedilatildeo agraves crianccedilas a termo
As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de
unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo
de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por
exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave
oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6
Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o
sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator
preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito
34 Consideraccedilotildees Finais
Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido
em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de
creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes
trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser
estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e
um estudo de caso realizado utilizando esta teacutecnica
A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser
usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo
anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo
gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre
o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois
objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees
finais limitaccedilotildees e trabalhos futuros
41
4 Conclusatildeo
O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de
regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de
informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que
ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem
analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que
assumem os valores da variaacutevel dependente
No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo
de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a
muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo
da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo
logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald
satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo
R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado
No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo
logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado
o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso
da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os
resultados obtidos
A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado
neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o
desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente
utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que
atuam com concessatildeo de creacutedito a seus clientes
O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e
o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados
nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo
de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas
Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro
meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja
indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal
caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador
caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo
linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua
A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo
Capiacutetulo 4 Conclusatildeo 42
logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta
de anaacutelise de dados de resposta categoacuterica
Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras
no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi
dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem
dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo
exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar
a regressatildeo logiacutestica com base nesses conceitos
Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo
logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel
eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo
epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios
de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada
um destes grupos entre outras possibilidades
43
Referecircncias
AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12
BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo
de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27
BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel
e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16
BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta
Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27
CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23
CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28
COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27
CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23
CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29
FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31
FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33
GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38
GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp
Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29
Referecircncias 44
HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24
HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27
HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23
JENNINGS D E Judging inference adequacy in logistic regression Journal of the
American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24
KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37
LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33
MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev
Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40
MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27
MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35
MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de
PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20
POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16
RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32
RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de
Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14
TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27
Referecircncias 45
VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila
do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33
ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38
ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37
Leandro de Azevedo Gonzalez
Regressatildeo Logiacutestica e suas Aplicaccedilotildees
Monografia apresentada ao curso de Ciecircnciada Computaccedilatildeo da Universidade Federal doMaranhatildeo como parte dos requisitos neces-saacuterios para obtenccedilatildeo do grau de Bacharel emCiecircncia da Computaccedilatildeo
Universidade Federal do Maranhatildeo
Centro de Ciecircncias Exatas e Tecnoloacutegicas
Curso de Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo
Orientador Prof Dr Ivo Joseacute da Cunha Serra
Satildeo Luiacutes
2018
Leandro de Azevedo GonzalezRegressatildeo Logiacutestica e suas Aplicaccedilotildees Leandro de Azevedo Gonzalez ndash Satildeo Luiacutes
201845 p
Orientador Prof Dr Ivo Joseacute da Cunha Serra
Monografia (Graduaccedilatildeo) ndash Universidade Federal do MaranhatildeoCentro de Ciecircncias Exatas e TecnoloacutegicasCurso de Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2018
1 Mineraccedilatildeo de Dados 2 Regressatildeo Logiacutestica 2 Aplicaccedilotildees de RegressatildeoLogiacutestica I Ivo Joseacute da Cunha Serra II Universidade Federal do Maranhatildeo IIICiecircncia da Computaccedilatildeo IV Tiacutetulo
Aos meus pais
Agradecimentos
Em especial aos meus pais Lorenzo Gonzalez Ruiz e Erciacutelia Maria Menezes de
Azevedo que satildeo os maiores incentivadores dos meus estudos por todo o esforccedilo dedicado
para que eu tivesse uma boa educaccedilatildeo
Ao meu orientador professor Ivo Joseacute da Cunha Serra pela sua orientaccedilatildeo elogios
conselhos confianccedila e empenho depositados em mim e no desenvolvimento deste trabalho
Agradeccedilo tambeacutem aos professores Tiago e Samyr que gentilmente aceitaram o convite
para a Banca Examinadora deste trabalho
Ao corpo docente do curso de Ciecircncia da Computaccedilatildeo pelo ensino e contribuiccedilatildeo
para a minha formaccedilatildeo acadecircmica e agrave todos os professores pelos quais eu passei desde o
ensino infantil
Aos familiares e amigos que estiveram presentes durante este processo Aos cole-
gas discentes do curso de Ciecircncia da Computaccedilatildeo os quais dividimos as dificuldades e
compartilhamos o aprendizado
Resumo
Devido ao crescente volume de dados computacionais que satildeo produzidos e armazenados
teacutecnicas de mineraccedilatildeo de dados tornam-se cada vez mais necessaacuterias para a procura de
padrotildees relevantes de informaccedilotildees nestes grandes volumes Este trabalho descreve e analisa
a regressatildeo logiacutestica que eacute uma teacutecnica para mineraccedilatildeo de dados de resposta categoacuterica
nas suas formas binaacuteria e muacuteltipla Satildeo discutidos meacutetodos tanto para a estimaccedilatildeo do
modelo de regressatildeo como para a avaliaccedilatildeo do modelo gerado Exemplos de aplicaccedilatildeo
da regressatildeo logiacutestica satildeo apresentados na aacuterea financeira ambiental e epidemioloacutegica os
quais mostram o possiacutevel uso desta teacutecnica nestas diferentes aacutereas e a destacam como uma
forte ferramenta de anaacutelise de dados de resposta categoacuterica que possibilita a estimaccedilatildeo da
probabilidade de ocorrecircncia de eventos assim como a avaliaccedilatildeo dos fatores que contribuem
para o mesmo
Palavras-chave Mineraccedilatildeo de Dados Regressatildeo Logiacutestica Aplicaccedilotildees de Regressatildeo
Logiacutestica
Abstract
Due to the increasing volume of computational data that is produced and stored data
mining techniques are becoming each more time more required to the search of relevant
information patterns in these large volumes This paper describes and analyses the logistic
regression which is a technique for data mining of categorical response in its binary and
multiple forms Methods are discussed both for the estimation of the regression model
and for the evaluation of the model generated Examples of the application of logistic
regression are presented in the financial environmental and epidemiological areas which
show the possible use of this technique in these different areas and stand out as a strong
tool of data analysis of categorical response which allows estimation of the probability of
occurrence of events as well as the evaluation of the contributing factors to them
Keywords Data Mining Logistic Regression Logistic Regression Applications
Lista de ilustraccedilotildees
Figura 1 ndash Graacutefico da funccedilatildeo logit(p) 17
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p) 18
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado 19
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell 25
Figura 5 ndash Componentes da mudanccedila ambiental global 32
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000 35
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados 36
Lista de tabelas
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo 31
Tabela 2 ndash Uso e Cobertura do solo 33
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico 36
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo 39
Lista de abreviaturas e siglas
BAP Bacia Hidrograacutefica do Alto Paraguai
OR Odds Ratio
Sumaacuterio
1 INTRODUCcedilAtildeO 12
11 Objetivos 13
111 Objetivos Especiacuteficos 13
12 Organizaccedilatildeo do Trabalho 13
2 REGRESSAtildeO LOGIacuteSTICA 14
21 Definiccedilatildeo 15
22 A Funccedilatildeo Logit 16
23 Regressatildeo Logiacutestica Binaacuteria 19
231 Estimando os coeficientes do modelo de regressatildeo 20
24 Regressatildeo Logiacutestica Muacuteltipla 21
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico 23
251 Teste da Razatildeo de Verossimilhanccedila 23
252 Teste de Wald 24
253 Pseudo R2 de Cox e Snell 24
26 Consideraccedilotildees Finais 25
3 APLICACcedilOtildeES DE REGRESSAtildeO LOGIacuteSTICA 27
31 Gestatildeo de creacutedito 27
311 Risco de creacutedito 28
312 Regressatildeo logiacutestica para anaacutelise de creacutedito 28
313 Aplicaccedilatildeo Exemplo 30
32 Anaacutelise ambiental 31
321 Regressatildeo logiacutestica na anaacutelise ambiental 34
322 Aplicaccedilatildeo Exemplo 35
33 Oacutebito Neonatal 37
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal 38
332 Aplicaccedilatildeo Exemplo 38
34 Consideraccedilotildees Finais 40
4 CONCLUSAtildeO 41
REFEREcircNCIAS 43
12
1 Introduccedilatildeo
O presente trabalho apresenta a regressatildeo logiacutestica que consiste em uma teacutecnica
de mineraccedilatildeo de dados A mineraccedilatildeo de dados eacute uma ferramenta de apoio para tomada
de decisatildeo baseada em dados computacionais dos quais pretende-se extrair informaccedilotildees
relevantes de uma grande base de dados de forma a buscar vantagens competitivas ou
elaboraccedilatildeo de estrateacutegia
Estes conjuntos de grandes volumes de dados representam um custo tanto de
armazenamento quanto de processamento portanto eacute possiacutevel afirmar que a ideia de
adquirir conhecimento automaticamente destes grandes volumes atraveacutes da mineraccedilatildeo de
dados eacute altamente beneacutefico
Este processo pode empregar algoritmos de inteligecircncia artificial anaacutelise estatiacutestica
recuperaccedilatildeo de informaccedilatildeo reconhecimento de padrotildees e outros Segundo Hosmer e
Lemeshow (2000) meacutetodos de regressatildeo tem se tornado um componente integral para
qualquer anaacutelise de dados interessada em descrever a relaccedilatildeo entre uma variaacutevel resposta
(dependente) e uma ou mais variaacuteveis explicativas (independentes)
A principal diferenccedila da regressatildeo logiacutestica para a regressatildeo linear eacute que a variaacutevel
dependente na regressatildeo logiacutestica eacute categoacuterica e de acordo com Agresti (2002) o modelo
de regressatildeo logiacutestica eacute o modelo mais importante para dados de resposta categoacuterica
Aleacutem da variaacutevel dependente ser categoacuterica ela eacute frequentemente binaacuteria (dicotocirc-
mica) assumindo portanto dois valores que satildeo normalmente tratados como ldquosucessordquo
ou ldquofracassordquo Estes dois valores representam um evento que depende do estudo de caso
podendo ser por exemplo ou a concessatildeo ou a natildeo concessatildeo de creacutedito na aacuterea financeira
ou a presenccedila ou a natildeo presenccedila de uma doenccedila nos estudos epidemioloacutegicos ou a compra
ou a natildeo compra de um determinado produto na aacuterea de marketing entre outras diversas
possibilidades
Aplicaccedilotildees de anaacutelise de creacutedito por exemplo podem utilizar a regressatildeo logiacutestica
para calcular a probabilidade de um indiviacuteduo ser merecedor da concessatildeo de creacutedito
Informaccedilotildees pessoais como salaacuterio emprego tipo de moradia satildeo exemplos de possiacuteveis
variaacuteveis que podem ser levadas em consideraccedilatildeo Isto permite natildeo apenas a estimaccedilatildeo
dessa probabilidade mas tambeacutem como traccedilar o perfil de um bom ou mau pagador
Haacute diversas teacutecnicas de mineraccedilatildeo de dados cada uma com suas particularidades
a escolha da tarefa a ser utilizada eacute um importante passo para a obtenccedilatildeo de resultados
satisfatoacuterios dentro de um determinado estudo isto soacute eacute possiacutevel com a compreensatildeo da
mesma e de sua capacidade
Capiacutetulo 1 Introduccedilatildeo 13
Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como
eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de
meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes
domiacutenios nos quais esta teacutecnica pode ser aplicada
11 Objetivos
O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como
ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio
de exemplos de aplicaccedilotildees
111 Objetivos Especiacuteficos
Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos
bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos
bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica
bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental
e epidemioloacutegica apontando seus resultados
12 Organizaccedilatildeo do Trabalho
O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2
apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica
a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo
O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito
neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas
aacutereas
Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do
que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado
e as consideraccedilotildees finais
14
2 Regressatildeo Logiacutestica
A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis
em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para
agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam
de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)
Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste
em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado
de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos
preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis
independentes ou explicativas
A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel
dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas
que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel
dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo
1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja
indicando dois possiacuteveis valores ou categorias
A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo
fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica
eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as
variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas
Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias
da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de
determinado evento assim como a influecircncia de cada variaacutevel independente no evento
estudado
Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-
zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais
diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de
voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de
outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados
categoacutericos
Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica
binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico
e quais os testes que avaliam a significatildencia de um modelo estimado
Capiacutetulo 2 Regressatildeo Logiacutestica 15
21 Definiccedilatildeo
A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir
a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores
tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais
variaacuteveis independentes contiacutenuas eou binaacuterias
Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade
de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria
Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio
do sono potencialmente grave em que a pessoa para de respirar por alguns segundos
diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio
mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para
esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele
tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a
ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As
variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica
propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa
prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade
desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo
logiacutestica
O modelo de regressatildeo logiacutestica permite
bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis
independentes que podem ser categoacutericas ou contiacutenuas
Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do
sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos
ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado
seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor
seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de
ter apneia do sono
bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada
aleatoriamente contra a probabilidade do evento natildeo ocorrer
Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia
A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de
um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp
1 minus pque
eacute chamada de chance Assim temos0 750 25
= 3 isto significa que uma pessoa nessas
caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter
Capiacutetulo 2 Regressatildeo Logiacutestica 16
bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria
Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel
peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel
idade natildeo contribui tanto para a eficaacutecia do mesmo
bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma
categoria determinada
A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos
ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio
A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes
casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade
desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da
distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)
Y =
1 se ocorrer sucesso
0 se ocorrerfracasso
A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p
Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma
combinaccedilatildeo linear de variaacuteveis independentes
22 A Funccedilatildeo Logit
Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue
a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave
distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na
regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas
de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma
combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p
Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio
uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar
qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1
A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural
o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21
ln(odds) rArr ln
(
p
1 minus p
)
(21)
Fonte Adaptado de (POWERS XIE 1999)
Capiacutetulo 2 Regressatildeo Logiacutestica 17
Figura 1 ndash Graacutefico da funccedilatildeo logit(p)
Fonte Produzido pelo autor
Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo
vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica
comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =
indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro
desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito
uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste
modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou
inferior a 0
Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo
o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades
satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0
No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas
queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa
da funccedilatildeo logit A partir da equaccedilatildeo(21) temos
logitminus1(α) =1
1 + eminusα=
eα
1 + eα(22)
Adaptado de (MESQUITA 2014)
Capiacutetulo 2 Regressatildeo Logiacutestica 18
α = combinaccedilatildeo linear
No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus
coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y
ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)
Fonte Produzido pelo autor
Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas
90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao
inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y
A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma
parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila
eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x
causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de
mudanccedila de estado da variaacutevel y em funccedilatildeo de x
Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo
entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos
que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento
aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem
sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da
inversa do logit na Figura 2
Capiacutetulo 2 Regressatildeo Logiacutestica 19
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado
Fontelthttpsgooglnwec4Qgt
23 Regressatildeo Logiacutestica Binaacuteria
A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica
em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e
tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens
de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute
dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E
neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por
exemplo
Digamos entatildeo que
g(x) = β0 + β1x1 (23)
Fonte (FIGUEIRA 2006)
seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes
e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada
Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)
ln
(
p
1 minus p
)
= β0 + β1x1
Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p
Pra isso utiliza-se o antilogaritmo
Capiacutetulo 2 Regressatildeo Logiacutestica 20
p
1 minus p= eβ0+β1
Seguindo com o procedimento para isolar p obtemos
p =eβ0+β1x1
1 + eβ0+β1x1
=1
1 + eminus(β0+β1x1)(24)
Fonte Adaptado de (MESQUITA 2014)
A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a
funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade
estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta
equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima
verossimilhanccedila conforme explicado na subseccedilatildeo seguinte
231 Estimando os coeficientes do modelo de regressatildeo
Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1
do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A
partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar
os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que
maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima
verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem
maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra
Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =
π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado
em xi
As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de
verossimilhanccedila eacute
L(β) =nprod
i=1
π(xi)yi [1 minus π(xi)]1minusyi (25)
Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo
log-verossimilhanccedila
l(β) = ln[L(β)] =nsum
i=1
[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)
Capiacutetulo 2 Regressatildeo Logiacutestica 21
O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-
metros (β0 β1)
part ln[L(β)]partβ0
=nsum
i=1
[yi minus π(xi)] (27)
part ln[L(β)]partβ1
=nsum
i=1
xi[yi minus π(xi)] (28)
Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees
(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de
variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa
que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a
sua variaacutevel independente xi
As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar
mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado
que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um
procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente
novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores
ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos
repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila
Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada
por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente
complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos
como SPSS1 SAS2 entre outros
24 Regressatildeo Logiacutestica Muacuteltipla
A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que
a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute
mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a
variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente
eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o
peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo
logiacutestica muacuteltipla
Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa
semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt
Capiacutetulo 2 Regressatildeo Logiacutestica 22
apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo
com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para
o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla
como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria
Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos
considerar este conjunto denotado por X = (x1 x2 xt)
Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para
este conjunto de variaacuteveis eacute definida como
g(x) = β0 + β1x1 + β2x2 + + βtxt (29)
Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo
ln
(
p
1 minus p
)
= β0 + β1x1 + β2x2 + + βtxt (210)
Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-
ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica
muacuteltipla para a probabilidade estimada p
p =eβ0+β1x1+β2x2++βtxt
1 + eβ0+β1x1+β2x2++βtxt
=1
1 + eminus(β0+β1x1+β2x2++βtxt)(211)
A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que
π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis
independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila
eacute obtida como
l(β) =nsum
i=1
[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)
As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas
equaccedilotildees 212 e 213
partl(β)partβ0
=nsum
i=1
yi minusnsum
i=1
πi = 0 (213)
partl(β)partβj
=nsum
i=1
xijyi minusnsum
i=1
xijπi = 0 para j isin 1 t (214)
Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)
πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila
Capiacutetulo 2 Regressatildeo Logiacutestica 23
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das
variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica
para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas
com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes
mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2
de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)
Veremos a seguir cada um deles
251 Teste da Razatildeo de Verossimilhanccedila
Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado
Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila
Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a
β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de
(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo
de verossimilhanccedila eacute expressa da seguinte forma
D = minus2 ln
[
verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado
]
(215)
D = minus2nsum
i=1
[
yi ln
(
πi
yi
)
+ (1 minus yi) ln
(
1 minus πi
1 minus yi
)]
(216)
O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado
corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D
tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o
ajuste do modelo
Queremos testar as hipoacuteteses
H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0
Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados
a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese
alternativa H1
Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de
D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela
inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de
G = D
(
modelo sem a variaacutevelmodelo com a variaacutevel
)
(217)
Capiacutetulo 2 Regressatildeo Logiacutestica 24
Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-
tiva para o modelo
252 Teste de Wald
O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da
significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-
tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada
variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel
dependente
Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-
los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do
objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou
no grupo da natildeo ocorrecircncia do evento (Y = 0)
O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de
um coeficiente e a estimativa do seu erro padratildeo
Wj =βj
var(βj)(218)
Fonte (BATISTA 2015)
Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA
2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos
ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo
quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de
Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado
253 Pseudo R2 de Cox e Snell
A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de
um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo
logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo
linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica
onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato
de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa
similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2
Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive
citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor
Capiacutetulo 2 Regressatildeo Logiacutestica 25
em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a
regressatildeo linear
Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um
dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na
equaccedilatildeo 217
R2 = 1 minus
(
L(β)0
L(β)M
)
2n (219)
Fonte (BATISTA 2015)
Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para
um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A
racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que
depende da probabilidade assumida pelos modelos com e sem preditores
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell
Fonte FIGUEIRA (2006)
O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute
menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente
De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-
dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No
exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40
Este mecanismo pode ser usado para comparar o desempenho de modelos concor-
rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais
elevado
26 Consideraccedilotildees Finais
Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de
dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente
dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de
Capiacutetulo 2 Regressatildeo Logiacutestica 26
variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta
teacutecnica
O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo
de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo
entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam
nos coeficientes que compotildeem o modelo
Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se
que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de
avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos
com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da
regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo
27
3 Aplicaccedilotildees de Regressatildeo Logiacutestica
Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela
primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras
aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias
Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica
ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou
o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este
trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos
envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede
Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de
regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer
e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo
para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria
administraccedilatildeo educaccedilatildeo ambiental e outros
Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de
regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de
creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente
31 Gestatildeo de creacutedito
Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute
muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu
reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou
pagamentos afirma Batista (2015)
Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou
retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de
creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado
atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade
destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante
miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e
concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo
estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento
em relaccedilatildeo agrave pontualidade e regularidade dos mesmos
A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando
no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28
eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)
311 Risco de creacutedito
No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma
transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras
lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito
O simples ato de emprestar uma quantia ou algum item a alguem envolve a
possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza
que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo
entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do
devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso
A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa
gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de
insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)
Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do
creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada
empresa
312 Regressatildeo logiacutestica para anaacutelise de creacutedito
Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de
modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes
para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo
com Gouvecirca Gonccedilalves e Mantovani (2013)
Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-
ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da
instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos
Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de
decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar
ganhos financeiros para a instituiccedilatildeo
A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por
exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade
e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees
qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de
pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam
classificar um perfil de adimplecircncia ou inadimplecircncia
Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29
passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos
90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real
Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit
scoring (CROOK EDELMAN THOMAS 2007)
A seguir veremos os passos para se construir um modelo de credit scoring utilizando
a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)
1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com
base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade
desta base de dados para resultar em um modelo de sucesso
2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da
variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem
variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se
aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente
bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo
devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica
3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute
sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente
neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes
devido agrave diferenccedila de tamanho
4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios
estatiacutesticos cada variaacutevel a ser utilizada no modelo
5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e
das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica
a fim de obter o modelo de regressatildeo
Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado
como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel
dependente binaacuteria Y pode assumir os valores
Y =
1 bom cliente
0 mau cliente
A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes
mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica
de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo
logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30
probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um
mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de
um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03
Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis
independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria
ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das
parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras
Destaca-se portanto que cada estudo oferece um resultado particular pois depende do
que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e
da poliacutetica de cada instituiccedilatildeo
Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito
pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia
aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a
cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado
obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e
consequentemente a perda do creacutedito
313 Aplicaccedilatildeo Exemplo
A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um
modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os
dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso
e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no
municiacutepio de Viccedilosa-MG
De acordo com os referidos autores a base amostral deste estudo foi composta
pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes
legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia
das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos
atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema
fornecido pela agecircncia bancaacuteria em estudo
A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos
clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que
tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise
de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de
relacionamento com o banco a renda o limite do cheque especial o estado civil e a
escolaridade
Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2
divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31
clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino
meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para
poacutes-graduccedilatildeo ou acima disto
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo
Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336
Fonte Adaptado de Ferreira Celso e Neto (2012)
Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos
atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na
Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados
Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento
de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste
cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1
representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na
equaccedilatildeo 31
p =1
1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)
Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e
Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que
clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores
observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e
maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo
agrave inadimplecircncia
32 Anaacutelise ambiental
O homem tem usado e modificado o solo haacute milhares de anos a fim de seu
proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura
urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender
a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32
Fatores como o crescimento populacional e a alta demanda por alimentos e outros
recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas
de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma
das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos
diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma
Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do
homem
Figura 5 ndash Componentes da mudanccedila ambiental global
Fonte VALENCIA (2008)
Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de
km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto
isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e
Foley (1999 apud VALENCIA 2008)
Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza
O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos
naturais dele para a realizaccedilatildeo das mesmas
A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas
do uso do solo
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33
bull Cobertura de solo
A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas
bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo
Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros
bull Uso do solo
O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo
Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem
do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso
do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas
executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo
com FAO (1998 apud VALENCIA 2008)
Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes
usos de solo podem ser realizados em uma mesma cobertura de solo assim como
diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como
mostrado na Tabela 2
Tabela 2 ndash Uso e Cobertura do solo
Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte
Fonte VALENCIA (2008)
bull Mudanccedilas do uso do solo
O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as
mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais
simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou
reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do
solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do
solo pode mudar mesmo se mantendo inalterado seu uso
Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas
de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do
solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente
relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers
(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34
uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras
agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade
a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades
humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes
no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os
dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por
sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra
321 Regressatildeo logiacutestica na anaacutelise ambiental
Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um
conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em
condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo
Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se
como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que
mais contribuem para a ocorrecircncia destas mudanccedilas
O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para
avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma
determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y
denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem
uso agriacutecola
Y =
1 aacutereas com uso agriacutecola
0 aacutereas sem uso agriacutecola
A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre
estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel
tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso
agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das
variaacuteveis independentes a serem consideradas na anaacutelise
A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem
de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados
ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por
exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute
encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes
Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)
que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo
meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35
devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites
florestais entre outros
A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma
aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis
independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo
(natildeo agriacutecola para agriacutecola)
322 Aplicaccedilatildeo Exemplo
O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia
Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo
de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este
estudo foi realizado por Mendes e Vega (2011)
Para a base amostral deste estudo o autor considerou imagens da BAP correspon-
dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a
gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou
aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-
pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a
transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os
pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000
Fonte Mendes e Vega (2011)
Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36
agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto
X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram
incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa
significacircncia para o modelo
A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico
com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de
regressatildeo logiacutestica pode ser observado na Figura 7
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico
Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia
anualTMA oC
Balanccedilo hiacutedricoclimaacutetico meacutedio anual
BHC mmano
Distacircncias para assedes urbanas de
municiacutepios brasileirosinseridos na bacia
D_URBMuacuteltiplos de
graus
Cotas topograacuteficas nabacia pelo lado
brasileiroTOPO m
Cotas topograacuteficasreclassificadas (le 150
m ge 150 m)TOPO_REC 1-2
Distacircncias paraestradas principais(pavimentadas e
federais) brasileirasinseridas na bacia
D_ESTRADAMuacuteltiplos de
graus
Distacircncias para asferrovias brasileirasinseridas na bacia
D_FERROMuacuteltiplos de
graus
Fonte Adaptado de Mendes e Vega (2011)
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados
Fonte Mendes e Vega (2011)
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37
Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute
categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-
ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em
aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e
facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-
mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento
estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas
33 Oacutebito Neonatal
O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias
incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os
sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes
Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias
incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de
neomorto
A mortalidade infantil pode ser considerada um dos melhores indicadores da
qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo
Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo
formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia
ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)
Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130
milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no
periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA
variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de
vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia
Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa
de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et
al 2005)
No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas
apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo
dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo
com as taxas de mortalidade poacutes-neonatal
Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal
teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que
possibilitem identificar os fatores de risco para o oacutebito neonatal
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal
Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-
geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo
consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do
que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos
do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et
al 2011)
A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar
a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer
niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias
separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo
Goldstein (2003)
Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito
neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada
A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em
crianccedilas com menos de 28 dias de vida
Y =
1 ocorrecircncia do oacutebito neonatal
0 natildeo ocorrecircncia do oacutebito neonatal
Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas
satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas
em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar
no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)
tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de
pessoas que moram no mesmo domiciacutelio entre outros
O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil
neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute
importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do
oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de
risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta
a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados
332 Aplicaccedilatildeo Exemplo
Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a
mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos
os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39
De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na
cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de
dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar
os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste
periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos
1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros
A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a
ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo
relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos
de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de
consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e
abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel
dependente foram consideradas estatisticamente significantes
Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-
nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo
varia de 0 a 10 e quanto mais proacuteximo de 10 melhor
Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves
dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4
informa o OR de quatro das variaacuteveis independentes inclusas neste estudo
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo
Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076
Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)
O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo
entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo
Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das
variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos
Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances
iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro
grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo
Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a
variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura
do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40
agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo
(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito
em comparaccedilatildeo agraves crianccedilas a termo
As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de
unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo
de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por
exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave
oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6
Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o
sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator
preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito
34 Consideraccedilotildees Finais
Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido
em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de
creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes
trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser
estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e
um estudo de caso realizado utilizando esta teacutecnica
A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser
usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo
anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo
gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre
o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois
objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees
finais limitaccedilotildees e trabalhos futuros
41
4 Conclusatildeo
O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de
regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de
informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que
ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem
analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que
assumem os valores da variaacutevel dependente
No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo
de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a
muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo
da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo
logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald
satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo
R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado
No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo
logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado
o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso
da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os
resultados obtidos
A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado
neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o
desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente
utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que
atuam com concessatildeo de creacutedito a seus clientes
O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e
o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados
nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo
de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas
Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro
meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja
indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal
caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador
caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo
linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua
A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo
Capiacutetulo 4 Conclusatildeo 42
logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta
de anaacutelise de dados de resposta categoacuterica
Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras
no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi
dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem
dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo
exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar
a regressatildeo logiacutestica com base nesses conceitos
Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo
logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel
eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo
epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios
de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada
um destes grupos entre outras possibilidades
43
Referecircncias
AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12
BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo
de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27
BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel
e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16
BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta
Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27
CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23
CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28
COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27
CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23
CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29
FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31
FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33
GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38
GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp
Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29
Referecircncias 44
HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24
HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27
HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23
JENNINGS D E Judging inference adequacy in logistic regression Journal of the
American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24
KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37
LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33
MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev
Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40
MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27
MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35
MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de
PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20
POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16
RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32
RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de
Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14
TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27
Referecircncias 45
VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila
do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33
ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38
ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37
Leandro de Azevedo GonzalezRegressatildeo Logiacutestica e suas Aplicaccedilotildees Leandro de Azevedo Gonzalez ndash Satildeo Luiacutes
201845 p
Orientador Prof Dr Ivo Joseacute da Cunha Serra
Monografia (Graduaccedilatildeo) ndash Universidade Federal do MaranhatildeoCentro de Ciecircncias Exatas e TecnoloacutegicasCurso de Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2018
1 Mineraccedilatildeo de Dados 2 Regressatildeo Logiacutestica 2 Aplicaccedilotildees de RegressatildeoLogiacutestica I Ivo Joseacute da Cunha Serra II Universidade Federal do Maranhatildeo IIICiecircncia da Computaccedilatildeo IV Tiacutetulo
Aos meus pais
Agradecimentos
Em especial aos meus pais Lorenzo Gonzalez Ruiz e Erciacutelia Maria Menezes de
Azevedo que satildeo os maiores incentivadores dos meus estudos por todo o esforccedilo dedicado
para que eu tivesse uma boa educaccedilatildeo
Ao meu orientador professor Ivo Joseacute da Cunha Serra pela sua orientaccedilatildeo elogios
conselhos confianccedila e empenho depositados em mim e no desenvolvimento deste trabalho
Agradeccedilo tambeacutem aos professores Tiago e Samyr que gentilmente aceitaram o convite
para a Banca Examinadora deste trabalho
Ao corpo docente do curso de Ciecircncia da Computaccedilatildeo pelo ensino e contribuiccedilatildeo
para a minha formaccedilatildeo acadecircmica e agrave todos os professores pelos quais eu passei desde o
ensino infantil
Aos familiares e amigos que estiveram presentes durante este processo Aos cole-
gas discentes do curso de Ciecircncia da Computaccedilatildeo os quais dividimos as dificuldades e
compartilhamos o aprendizado
Resumo
Devido ao crescente volume de dados computacionais que satildeo produzidos e armazenados
teacutecnicas de mineraccedilatildeo de dados tornam-se cada vez mais necessaacuterias para a procura de
padrotildees relevantes de informaccedilotildees nestes grandes volumes Este trabalho descreve e analisa
a regressatildeo logiacutestica que eacute uma teacutecnica para mineraccedilatildeo de dados de resposta categoacuterica
nas suas formas binaacuteria e muacuteltipla Satildeo discutidos meacutetodos tanto para a estimaccedilatildeo do
modelo de regressatildeo como para a avaliaccedilatildeo do modelo gerado Exemplos de aplicaccedilatildeo
da regressatildeo logiacutestica satildeo apresentados na aacuterea financeira ambiental e epidemioloacutegica os
quais mostram o possiacutevel uso desta teacutecnica nestas diferentes aacutereas e a destacam como uma
forte ferramenta de anaacutelise de dados de resposta categoacuterica que possibilita a estimaccedilatildeo da
probabilidade de ocorrecircncia de eventos assim como a avaliaccedilatildeo dos fatores que contribuem
para o mesmo
Palavras-chave Mineraccedilatildeo de Dados Regressatildeo Logiacutestica Aplicaccedilotildees de Regressatildeo
Logiacutestica
Abstract
Due to the increasing volume of computational data that is produced and stored data
mining techniques are becoming each more time more required to the search of relevant
information patterns in these large volumes This paper describes and analyses the logistic
regression which is a technique for data mining of categorical response in its binary and
multiple forms Methods are discussed both for the estimation of the regression model
and for the evaluation of the model generated Examples of the application of logistic
regression are presented in the financial environmental and epidemiological areas which
show the possible use of this technique in these different areas and stand out as a strong
tool of data analysis of categorical response which allows estimation of the probability of
occurrence of events as well as the evaluation of the contributing factors to them
Keywords Data Mining Logistic Regression Logistic Regression Applications
Lista de ilustraccedilotildees
Figura 1 ndash Graacutefico da funccedilatildeo logit(p) 17
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p) 18
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado 19
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell 25
Figura 5 ndash Componentes da mudanccedila ambiental global 32
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000 35
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados 36
Lista de tabelas
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo 31
Tabela 2 ndash Uso e Cobertura do solo 33
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico 36
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo 39
Lista de abreviaturas e siglas
BAP Bacia Hidrograacutefica do Alto Paraguai
OR Odds Ratio
Sumaacuterio
1 INTRODUCcedilAtildeO 12
11 Objetivos 13
111 Objetivos Especiacuteficos 13
12 Organizaccedilatildeo do Trabalho 13
2 REGRESSAtildeO LOGIacuteSTICA 14
21 Definiccedilatildeo 15
22 A Funccedilatildeo Logit 16
23 Regressatildeo Logiacutestica Binaacuteria 19
231 Estimando os coeficientes do modelo de regressatildeo 20
24 Regressatildeo Logiacutestica Muacuteltipla 21
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico 23
251 Teste da Razatildeo de Verossimilhanccedila 23
252 Teste de Wald 24
253 Pseudo R2 de Cox e Snell 24
26 Consideraccedilotildees Finais 25
3 APLICACcedilOtildeES DE REGRESSAtildeO LOGIacuteSTICA 27
31 Gestatildeo de creacutedito 27
311 Risco de creacutedito 28
312 Regressatildeo logiacutestica para anaacutelise de creacutedito 28
313 Aplicaccedilatildeo Exemplo 30
32 Anaacutelise ambiental 31
321 Regressatildeo logiacutestica na anaacutelise ambiental 34
322 Aplicaccedilatildeo Exemplo 35
33 Oacutebito Neonatal 37
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal 38
332 Aplicaccedilatildeo Exemplo 38
34 Consideraccedilotildees Finais 40
4 CONCLUSAtildeO 41
REFEREcircNCIAS 43
12
1 Introduccedilatildeo
O presente trabalho apresenta a regressatildeo logiacutestica que consiste em uma teacutecnica
de mineraccedilatildeo de dados A mineraccedilatildeo de dados eacute uma ferramenta de apoio para tomada
de decisatildeo baseada em dados computacionais dos quais pretende-se extrair informaccedilotildees
relevantes de uma grande base de dados de forma a buscar vantagens competitivas ou
elaboraccedilatildeo de estrateacutegia
Estes conjuntos de grandes volumes de dados representam um custo tanto de
armazenamento quanto de processamento portanto eacute possiacutevel afirmar que a ideia de
adquirir conhecimento automaticamente destes grandes volumes atraveacutes da mineraccedilatildeo de
dados eacute altamente beneacutefico
Este processo pode empregar algoritmos de inteligecircncia artificial anaacutelise estatiacutestica
recuperaccedilatildeo de informaccedilatildeo reconhecimento de padrotildees e outros Segundo Hosmer e
Lemeshow (2000) meacutetodos de regressatildeo tem se tornado um componente integral para
qualquer anaacutelise de dados interessada em descrever a relaccedilatildeo entre uma variaacutevel resposta
(dependente) e uma ou mais variaacuteveis explicativas (independentes)
A principal diferenccedila da regressatildeo logiacutestica para a regressatildeo linear eacute que a variaacutevel
dependente na regressatildeo logiacutestica eacute categoacuterica e de acordo com Agresti (2002) o modelo
de regressatildeo logiacutestica eacute o modelo mais importante para dados de resposta categoacuterica
Aleacutem da variaacutevel dependente ser categoacuterica ela eacute frequentemente binaacuteria (dicotocirc-
mica) assumindo portanto dois valores que satildeo normalmente tratados como ldquosucessordquo
ou ldquofracassordquo Estes dois valores representam um evento que depende do estudo de caso
podendo ser por exemplo ou a concessatildeo ou a natildeo concessatildeo de creacutedito na aacuterea financeira
ou a presenccedila ou a natildeo presenccedila de uma doenccedila nos estudos epidemioloacutegicos ou a compra
ou a natildeo compra de um determinado produto na aacuterea de marketing entre outras diversas
possibilidades
Aplicaccedilotildees de anaacutelise de creacutedito por exemplo podem utilizar a regressatildeo logiacutestica
para calcular a probabilidade de um indiviacuteduo ser merecedor da concessatildeo de creacutedito
Informaccedilotildees pessoais como salaacuterio emprego tipo de moradia satildeo exemplos de possiacuteveis
variaacuteveis que podem ser levadas em consideraccedilatildeo Isto permite natildeo apenas a estimaccedilatildeo
dessa probabilidade mas tambeacutem como traccedilar o perfil de um bom ou mau pagador
Haacute diversas teacutecnicas de mineraccedilatildeo de dados cada uma com suas particularidades
a escolha da tarefa a ser utilizada eacute um importante passo para a obtenccedilatildeo de resultados
satisfatoacuterios dentro de um determinado estudo isto soacute eacute possiacutevel com a compreensatildeo da
mesma e de sua capacidade
Capiacutetulo 1 Introduccedilatildeo 13
Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como
eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de
meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes
domiacutenios nos quais esta teacutecnica pode ser aplicada
11 Objetivos
O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como
ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio
de exemplos de aplicaccedilotildees
111 Objetivos Especiacuteficos
Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos
bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos
bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica
bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental
e epidemioloacutegica apontando seus resultados
12 Organizaccedilatildeo do Trabalho
O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2
apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica
a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo
O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito
neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas
aacutereas
Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do
que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado
e as consideraccedilotildees finais
14
2 Regressatildeo Logiacutestica
A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis
em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para
agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam
de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)
Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste
em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado
de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos
preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis
independentes ou explicativas
A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel
dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas
que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel
dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo
1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja
indicando dois possiacuteveis valores ou categorias
A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo
fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica
eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as
variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas
Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias
da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de
determinado evento assim como a influecircncia de cada variaacutevel independente no evento
estudado
Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-
zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais
diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de
voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de
outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados
categoacutericos
Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica
binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico
e quais os testes que avaliam a significatildencia de um modelo estimado
Capiacutetulo 2 Regressatildeo Logiacutestica 15
21 Definiccedilatildeo
A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir
a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores
tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais
variaacuteveis independentes contiacutenuas eou binaacuterias
Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade
de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria
Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio
do sono potencialmente grave em que a pessoa para de respirar por alguns segundos
diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio
mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para
esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele
tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a
ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As
variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica
propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa
prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade
desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo
logiacutestica
O modelo de regressatildeo logiacutestica permite
bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis
independentes que podem ser categoacutericas ou contiacutenuas
Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do
sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos
ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado
seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor
seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de
ter apneia do sono
bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada
aleatoriamente contra a probabilidade do evento natildeo ocorrer
Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia
A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de
um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp
1 minus pque
eacute chamada de chance Assim temos0 750 25
= 3 isto significa que uma pessoa nessas
caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter
Capiacutetulo 2 Regressatildeo Logiacutestica 16
bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria
Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel
peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel
idade natildeo contribui tanto para a eficaacutecia do mesmo
bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma
categoria determinada
A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos
ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio
A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes
casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade
desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da
distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)
Y =
1 se ocorrer sucesso
0 se ocorrerfracasso
A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p
Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma
combinaccedilatildeo linear de variaacuteveis independentes
22 A Funccedilatildeo Logit
Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue
a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave
distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na
regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas
de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma
combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p
Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio
uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar
qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1
A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural
o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21
ln(odds) rArr ln
(
p
1 minus p
)
(21)
Fonte Adaptado de (POWERS XIE 1999)
Capiacutetulo 2 Regressatildeo Logiacutestica 17
Figura 1 ndash Graacutefico da funccedilatildeo logit(p)
Fonte Produzido pelo autor
Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo
vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica
comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =
indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro
desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito
uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste
modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou
inferior a 0
Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo
o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades
satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0
No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas
queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa
da funccedilatildeo logit A partir da equaccedilatildeo(21) temos
logitminus1(α) =1
1 + eminusα=
eα
1 + eα(22)
Adaptado de (MESQUITA 2014)
Capiacutetulo 2 Regressatildeo Logiacutestica 18
α = combinaccedilatildeo linear
No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus
coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y
ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)
Fonte Produzido pelo autor
Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas
90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao
inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y
A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma
parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila
eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x
causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de
mudanccedila de estado da variaacutevel y em funccedilatildeo de x
Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo
entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos
que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento
aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem
sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da
inversa do logit na Figura 2
Capiacutetulo 2 Regressatildeo Logiacutestica 19
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado
Fontelthttpsgooglnwec4Qgt
23 Regressatildeo Logiacutestica Binaacuteria
A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica
em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e
tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens
de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute
dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E
neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por
exemplo
Digamos entatildeo que
g(x) = β0 + β1x1 (23)
Fonte (FIGUEIRA 2006)
seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes
e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada
Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)
ln
(
p
1 minus p
)
= β0 + β1x1
Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p
Pra isso utiliza-se o antilogaritmo
Capiacutetulo 2 Regressatildeo Logiacutestica 20
p
1 minus p= eβ0+β1
Seguindo com o procedimento para isolar p obtemos
p =eβ0+β1x1
1 + eβ0+β1x1
=1
1 + eminus(β0+β1x1)(24)
Fonte Adaptado de (MESQUITA 2014)
A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a
funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade
estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta
equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima
verossimilhanccedila conforme explicado na subseccedilatildeo seguinte
231 Estimando os coeficientes do modelo de regressatildeo
Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1
do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A
partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar
os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que
maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima
verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem
maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra
Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =
π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado
em xi
As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de
verossimilhanccedila eacute
L(β) =nprod
i=1
π(xi)yi [1 minus π(xi)]1minusyi (25)
Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo
log-verossimilhanccedila
l(β) = ln[L(β)] =nsum
i=1
[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)
Capiacutetulo 2 Regressatildeo Logiacutestica 21
O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-
metros (β0 β1)
part ln[L(β)]partβ0
=nsum
i=1
[yi minus π(xi)] (27)
part ln[L(β)]partβ1
=nsum
i=1
xi[yi minus π(xi)] (28)
Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees
(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de
variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa
que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a
sua variaacutevel independente xi
As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar
mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado
que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um
procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente
novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores
ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos
repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila
Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada
por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente
complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos
como SPSS1 SAS2 entre outros
24 Regressatildeo Logiacutestica Muacuteltipla
A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que
a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute
mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a
variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente
eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o
peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo
logiacutestica muacuteltipla
Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa
semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt
Capiacutetulo 2 Regressatildeo Logiacutestica 22
apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo
com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para
o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla
como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria
Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos
considerar este conjunto denotado por X = (x1 x2 xt)
Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para
este conjunto de variaacuteveis eacute definida como
g(x) = β0 + β1x1 + β2x2 + + βtxt (29)
Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo
ln
(
p
1 minus p
)
= β0 + β1x1 + β2x2 + + βtxt (210)
Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-
ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica
muacuteltipla para a probabilidade estimada p
p =eβ0+β1x1+β2x2++βtxt
1 + eβ0+β1x1+β2x2++βtxt
=1
1 + eminus(β0+β1x1+β2x2++βtxt)(211)
A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que
π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis
independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila
eacute obtida como
l(β) =nsum
i=1
[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)
As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas
equaccedilotildees 212 e 213
partl(β)partβ0
=nsum
i=1
yi minusnsum
i=1
πi = 0 (213)
partl(β)partβj
=nsum
i=1
xijyi minusnsum
i=1
xijπi = 0 para j isin 1 t (214)
Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)
πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila
Capiacutetulo 2 Regressatildeo Logiacutestica 23
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das
variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica
para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas
com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes
mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2
de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)
Veremos a seguir cada um deles
251 Teste da Razatildeo de Verossimilhanccedila
Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado
Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila
Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a
β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de
(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo
de verossimilhanccedila eacute expressa da seguinte forma
D = minus2 ln
[
verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado
]
(215)
D = minus2nsum
i=1
[
yi ln
(
πi
yi
)
+ (1 minus yi) ln
(
1 minus πi
1 minus yi
)]
(216)
O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado
corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D
tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o
ajuste do modelo
Queremos testar as hipoacuteteses
H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0
Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados
a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese
alternativa H1
Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de
D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela
inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de
G = D
(
modelo sem a variaacutevelmodelo com a variaacutevel
)
(217)
Capiacutetulo 2 Regressatildeo Logiacutestica 24
Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-
tiva para o modelo
252 Teste de Wald
O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da
significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-
tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada
variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel
dependente
Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-
los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do
objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou
no grupo da natildeo ocorrecircncia do evento (Y = 0)
O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de
um coeficiente e a estimativa do seu erro padratildeo
Wj =βj
var(βj)(218)
Fonte (BATISTA 2015)
Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA
2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos
ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo
quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de
Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado
253 Pseudo R2 de Cox e Snell
A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de
um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo
logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo
linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica
onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato
de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa
similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2
Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive
citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor
Capiacutetulo 2 Regressatildeo Logiacutestica 25
em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a
regressatildeo linear
Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um
dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na
equaccedilatildeo 217
R2 = 1 minus
(
L(β)0
L(β)M
)
2n (219)
Fonte (BATISTA 2015)
Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para
um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A
racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que
depende da probabilidade assumida pelos modelos com e sem preditores
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell
Fonte FIGUEIRA (2006)
O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute
menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente
De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-
dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No
exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40
Este mecanismo pode ser usado para comparar o desempenho de modelos concor-
rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais
elevado
26 Consideraccedilotildees Finais
Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de
dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente
dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de
Capiacutetulo 2 Regressatildeo Logiacutestica 26
variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta
teacutecnica
O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo
de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo
entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam
nos coeficientes que compotildeem o modelo
Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se
que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de
avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos
com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da
regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo
27
3 Aplicaccedilotildees de Regressatildeo Logiacutestica
Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela
primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras
aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias
Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica
ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou
o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este
trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos
envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede
Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de
regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer
e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo
para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria
administraccedilatildeo educaccedilatildeo ambiental e outros
Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de
regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de
creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente
31 Gestatildeo de creacutedito
Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute
muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu
reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou
pagamentos afirma Batista (2015)
Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou
retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de
creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado
atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade
destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante
miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e
concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo
estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento
em relaccedilatildeo agrave pontualidade e regularidade dos mesmos
A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando
no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28
eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)
311 Risco de creacutedito
No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma
transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras
lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito
O simples ato de emprestar uma quantia ou algum item a alguem envolve a
possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza
que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo
entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do
devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso
A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa
gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de
insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)
Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do
creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada
empresa
312 Regressatildeo logiacutestica para anaacutelise de creacutedito
Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de
modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes
para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo
com Gouvecirca Gonccedilalves e Mantovani (2013)
Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-
ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da
instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos
Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de
decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar
ganhos financeiros para a instituiccedilatildeo
A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por
exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade
e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees
qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de
pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam
classificar um perfil de adimplecircncia ou inadimplecircncia
Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29
passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos
90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real
Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit
scoring (CROOK EDELMAN THOMAS 2007)
A seguir veremos os passos para se construir um modelo de credit scoring utilizando
a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)
1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com
base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade
desta base de dados para resultar em um modelo de sucesso
2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da
variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem
variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se
aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente
bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo
devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica
3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute
sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente
neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes
devido agrave diferenccedila de tamanho
4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios
estatiacutesticos cada variaacutevel a ser utilizada no modelo
5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e
das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica
a fim de obter o modelo de regressatildeo
Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado
como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel
dependente binaacuteria Y pode assumir os valores
Y =
1 bom cliente
0 mau cliente
A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes
mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica
de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo
logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30
probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um
mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de
um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03
Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis
independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria
ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das
parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras
Destaca-se portanto que cada estudo oferece um resultado particular pois depende do
que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e
da poliacutetica de cada instituiccedilatildeo
Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito
pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia
aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a
cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado
obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e
consequentemente a perda do creacutedito
313 Aplicaccedilatildeo Exemplo
A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um
modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os
dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso
e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no
municiacutepio de Viccedilosa-MG
De acordo com os referidos autores a base amostral deste estudo foi composta
pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes
legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia
das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos
atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema
fornecido pela agecircncia bancaacuteria em estudo
A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos
clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que
tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise
de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de
relacionamento com o banco a renda o limite do cheque especial o estado civil e a
escolaridade
Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2
divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31
clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino
meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para
poacutes-graduccedilatildeo ou acima disto
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo
Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336
Fonte Adaptado de Ferreira Celso e Neto (2012)
Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos
atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na
Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados
Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento
de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste
cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1
representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na
equaccedilatildeo 31
p =1
1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)
Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e
Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que
clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores
observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e
maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo
agrave inadimplecircncia
32 Anaacutelise ambiental
O homem tem usado e modificado o solo haacute milhares de anos a fim de seu
proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura
urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender
a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32
Fatores como o crescimento populacional e a alta demanda por alimentos e outros
recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas
de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma
das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos
diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma
Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do
homem
Figura 5 ndash Componentes da mudanccedila ambiental global
Fonte VALENCIA (2008)
Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de
km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto
isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e
Foley (1999 apud VALENCIA 2008)
Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza
O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos
naturais dele para a realizaccedilatildeo das mesmas
A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas
do uso do solo
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33
bull Cobertura de solo
A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas
bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo
Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros
bull Uso do solo
O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo
Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem
do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso
do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas
executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo
com FAO (1998 apud VALENCIA 2008)
Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes
usos de solo podem ser realizados em uma mesma cobertura de solo assim como
diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como
mostrado na Tabela 2
Tabela 2 ndash Uso e Cobertura do solo
Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte
Fonte VALENCIA (2008)
bull Mudanccedilas do uso do solo
O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as
mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais
simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou
reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do
solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do
solo pode mudar mesmo se mantendo inalterado seu uso
Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas
de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do
solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente
relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers
(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34
uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras
agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade
a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades
humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes
no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os
dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por
sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra
321 Regressatildeo logiacutestica na anaacutelise ambiental
Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um
conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em
condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo
Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se
como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que
mais contribuem para a ocorrecircncia destas mudanccedilas
O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para
avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma
determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y
denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem
uso agriacutecola
Y =
1 aacutereas com uso agriacutecola
0 aacutereas sem uso agriacutecola
A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre
estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel
tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso
agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das
variaacuteveis independentes a serem consideradas na anaacutelise
A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem
de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados
ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por
exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute
encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes
Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)
que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo
meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35
devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites
florestais entre outros
A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma
aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis
independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo
(natildeo agriacutecola para agriacutecola)
322 Aplicaccedilatildeo Exemplo
O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia
Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo
de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este
estudo foi realizado por Mendes e Vega (2011)
Para a base amostral deste estudo o autor considerou imagens da BAP correspon-
dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a
gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou
aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-
pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a
transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os
pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000
Fonte Mendes e Vega (2011)
Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36
agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto
X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram
incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa
significacircncia para o modelo
A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico
com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de
regressatildeo logiacutestica pode ser observado na Figura 7
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico
Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia
anualTMA oC
Balanccedilo hiacutedricoclimaacutetico meacutedio anual
BHC mmano
Distacircncias para assedes urbanas de
municiacutepios brasileirosinseridos na bacia
D_URBMuacuteltiplos de
graus
Cotas topograacuteficas nabacia pelo lado
brasileiroTOPO m
Cotas topograacuteficasreclassificadas (le 150
m ge 150 m)TOPO_REC 1-2
Distacircncias paraestradas principais(pavimentadas e
federais) brasileirasinseridas na bacia
D_ESTRADAMuacuteltiplos de
graus
Distacircncias para asferrovias brasileirasinseridas na bacia
D_FERROMuacuteltiplos de
graus
Fonte Adaptado de Mendes e Vega (2011)
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados
Fonte Mendes e Vega (2011)
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37
Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute
categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-
ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em
aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e
facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-
mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento
estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas
33 Oacutebito Neonatal
O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias
incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os
sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes
Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias
incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de
neomorto
A mortalidade infantil pode ser considerada um dos melhores indicadores da
qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo
Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo
formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia
ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)
Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130
milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no
periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA
variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de
vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia
Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa
de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et
al 2005)
No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas
apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo
dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo
com as taxas de mortalidade poacutes-neonatal
Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal
teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que
possibilitem identificar os fatores de risco para o oacutebito neonatal
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal
Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-
geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo
consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do
que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos
do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et
al 2011)
A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar
a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer
niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias
separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo
Goldstein (2003)
Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito
neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada
A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em
crianccedilas com menos de 28 dias de vida
Y =
1 ocorrecircncia do oacutebito neonatal
0 natildeo ocorrecircncia do oacutebito neonatal
Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas
satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas
em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar
no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)
tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de
pessoas que moram no mesmo domiciacutelio entre outros
O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil
neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute
importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do
oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de
risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta
a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados
332 Aplicaccedilatildeo Exemplo
Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a
mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos
os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39
De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na
cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de
dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar
os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste
periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos
1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros
A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a
ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo
relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos
de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de
consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e
abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel
dependente foram consideradas estatisticamente significantes
Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-
nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo
varia de 0 a 10 e quanto mais proacuteximo de 10 melhor
Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves
dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4
informa o OR de quatro das variaacuteveis independentes inclusas neste estudo
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo
Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076
Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)
O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo
entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo
Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das
variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos
Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances
iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro
grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo
Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a
variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura
do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40
agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo
(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito
em comparaccedilatildeo agraves crianccedilas a termo
As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de
unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo
de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por
exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave
oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6
Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o
sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator
preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito
34 Consideraccedilotildees Finais
Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido
em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de
creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes
trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser
estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e
um estudo de caso realizado utilizando esta teacutecnica
A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser
usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo
anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo
gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre
o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois
objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees
finais limitaccedilotildees e trabalhos futuros
41
4 Conclusatildeo
O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de
regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de
informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que
ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem
analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que
assumem os valores da variaacutevel dependente
No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo
de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a
muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo
da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo
logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald
satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo
R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado
No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo
logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado
o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso
da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os
resultados obtidos
A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado
neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o
desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente
utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que
atuam com concessatildeo de creacutedito a seus clientes
O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e
o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados
nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo
de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas
Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro
meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja
indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal
caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador
caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo
linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua
A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo
Capiacutetulo 4 Conclusatildeo 42
logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta
de anaacutelise de dados de resposta categoacuterica
Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras
no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi
dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem
dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo
exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar
a regressatildeo logiacutestica com base nesses conceitos
Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo
logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel
eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo
epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios
de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada
um destes grupos entre outras possibilidades
43
Referecircncias
AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12
BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo
de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27
BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel
e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16
BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta
Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27
CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23
CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28
COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27
CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23
CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29
FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31
FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33
GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38
GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp
Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29
Referecircncias 44
HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24
HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27
HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23
JENNINGS D E Judging inference adequacy in logistic regression Journal of the
American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24
KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37
LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33
MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev
Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40
MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27
MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35
MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de
PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20
POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16
RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32
RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de
Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14
TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27
Referecircncias 45
VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila
do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33
ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38
ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37
Aos meus pais
Agradecimentos
Em especial aos meus pais Lorenzo Gonzalez Ruiz e Erciacutelia Maria Menezes de
Azevedo que satildeo os maiores incentivadores dos meus estudos por todo o esforccedilo dedicado
para que eu tivesse uma boa educaccedilatildeo
Ao meu orientador professor Ivo Joseacute da Cunha Serra pela sua orientaccedilatildeo elogios
conselhos confianccedila e empenho depositados em mim e no desenvolvimento deste trabalho
Agradeccedilo tambeacutem aos professores Tiago e Samyr que gentilmente aceitaram o convite
para a Banca Examinadora deste trabalho
Ao corpo docente do curso de Ciecircncia da Computaccedilatildeo pelo ensino e contribuiccedilatildeo
para a minha formaccedilatildeo acadecircmica e agrave todos os professores pelos quais eu passei desde o
ensino infantil
Aos familiares e amigos que estiveram presentes durante este processo Aos cole-
gas discentes do curso de Ciecircncia da Computaccedilatildeo os quais dividimos as dificuldades e
compartilhamos o aprendizado
Resumo
Devido ao crescente volume de dados computacionais que satildeo produzidos e armazenados
teacutecnicas de mineraccedilatildeo de dados tornam-se cada vez mais necessaacuterias para a procura de
padrotildees relevantes de informaccedilotildees nestes grandes volumes Este trabalho descreve e analisa
a regressatildeo logiacutestica que eacute uma teacutecnica para mineraccedilatildeo de dados de resposta categoacuterica
nas suas formas binaacuteria e muacuteltipla Satildeo discutidos meacutetodos tanto para a estimaccedilatildeo do
modelo de regressatildeo como para a avaliaccedilatildeo do modelo gerado Exemplos de aplicaccedilatildeo
da regressatildeo logiacutestica satildeo apresentados na aacuterea financeira ambiental e epidemioloacutegica os
quais mostram o possiacutevel uso desta teacutecnica nestas diferentes aacutereas e a destacam como uma
forte ferramenta de anaacutelise de dados de resposta categoacuterica que possibilita a estimaccedilatildeo da
probabilidade de ocorrecircncia de eventos assim como a avaliaccedilatildeo dos fatores que contribuem
para o mesmo
Palavras-chave Mineraccedilatildeo de Dados Regressatildeo Logiacutestica Aplicaccedilotildees de Regressatildeo
Logiacutestica
Abstract
Due to the increasing volume of computational data that is produced and stored data
mining techniques are becoming each more time more required to the search of relevant
information patterns in these large volumes This paper describes and analyses the logistic
regression which is a technique for data mining of categorical response in its binary and
multiple forms Methods are discussed both for the estimation of the regression model
and for the evaluation of the model generated Examples of the application of logistic
regression are presented in the financial environmental and epidemiological areas which
show the possible use of this technique in these different areas and stand out as a strong
tool of data analysis of categorical response which allows estimation of the probability of
occurrence of events as well as the evaluation of the contributing factors to them
Keywords Data Mining Logistic Regression Logistic Regression Applications
Lista de ilustraccedilotildees
Figura 1 ndash Graacutefico da funccedilatildeo logit(p) 17
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p) 18
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado 19
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell 25
Figura 5 ndash Componentes da mudanccedila ambiental global 32
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000 35
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados 36
Lista de tabelas
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo 31
Tabela 2 ndash Uso e Cobertura do solo 33
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico 36
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo 39
Lista de abreviaturas e siglas
BAP Bacia Hidrograacutefica do Alto Paraguai
OR Odds Ratio
Sumaacuterio
1 INTRODUCcedilAtildeO 12
11 Objetivos 13
111 Objetivos Especiacuteficos 13
12 Organizaccedilatildeo do Trabalho 13
2 REGRESSAtildeO LOGIacuteSTICA 14
21 Definiccedilatildeo 15
22 A Funccedilatildeo Logit 16
23 Regressatildeo Logiacutestica Binaacuteria 19
231 Estimando os coeficientes do modelo de regressatildeo 20
24 Regressatildeo Logiacutestica Muacuteltipla 21
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico 23
251 Teste da Razatildeo de Verossimilhanccedila 23
252 Teste de Wald 24
253 Pseudo R2 de Cox e Snell 24
26 Consideraccedilotildees Finais 25
3 APLICACcedilOtildeES DE REGRESSAtildeO LOGIacuteSTICA 27
31 Gestatildeo de creacutedito 27
311 Risco de creacutedito 28
312 Regressatildeo logiacutestica para anaacutelise de creacutedito 28
313 Aplicaccedilatildeo Exemplo 30
32 Anaacutelise ambiental 31
321 Regressatildeo logiacutestica na anaacutelise ambiental 34
322 Aplicaccedilatildeo Exemplo 35
33 Oacutebito Neonatal 37
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal 38
332 Aplicaccedilatildeo Exemplo 38
34 Consideraccedilotildees Finais 40
4 CONCLUSAtildeO 41
REFEREcircNCIAS 43
12
1 Introduccedilatildeo
O presente trabalho apresenta a regressatildeo logiacutestica que consiste em uma teacutecnica
de mineraccedilatildeo de dados A mineraccedilatildeo de dados eacute uma ferramenta de apoio para tomada
de decisatildeo baseada em dados computacionais dos quais pretende-se extrair informaccedilotildees
relevantes de uma grande base de dados de forma a buscar vantagens competitivas ou
elaboraccedilatildeo de estrateacutegia
Estes conjuntos de grandes volumes de dados representam um custo tanto de
armazenamento quanto de processamento portanto eacute possiacutevel afirmar que a ideia de
adquirir conhecimento automaticamente destes grandes volumes atraveacutes da mineraccedilatildeo de
dados eacute altamente beneacutefico
Este processo pode empregar algoritmos de inteligecircncia artificial anaacutelise estatiacutestica
recuperaccedilatildeo de informaccedilatildeo reconhecimento de padrotildees e outros Segundo Hosmer e
Lemeshow (2000) meacutetodos de regressatildeo tem se tornado um componente integral para
qualquer anaacutelise de dados interessada em descrever a relaccedilatildeo entre uma variaacutevel resposta
(dependente) e uma ou mais variaacuteveis explicativas (independentes)
A principal diferenccedila da regressatildeo logiacutestica para a regressatildeo linear eacute que a variaacutevel
dependente na regressatildeo logiacutestica eacute categoacuterica e de acordo com Agresti (2002) o modelo
de regressatildeo logiacutestica eacute o modelo mais importante para dados de resposta categoacuterica
Aleacutem da variaacutevel dependente ser categoacuterica ela eacute frequentemente binaacuteria (dicotocirc-
mica) assumindo portanto dois valores que satildeo normalmente tratados como ldquosucessordquo
ou ldquofracassordquo Estes dois valores representam um evento que depende do estudo de caso
podendo ser por exemplo ou a concessatildeo ou a natildeo concessatildeo de creacutedito na aacuterea financeira
ou a presenccedila ou a natildeo presenccedila de uma doenccedila nos estudos epidemioloacutegicos ou a compra
ou a natildeo compra de um determinado produto na aacuterea de marketing entre outras diversas
possibilidades
Aplicaccedilotildees de anaacutelise de creacutedito por exemplo podem utilizar a regressatildeo logiacutestica
para calcular a probabilidade de um indiviacuteduo ser merecedor da concessatildeo de creacutedito
Informaccedilotildees pessoais como salaacuterio emprego tipo de moradia satildeo exemplos de possiacuteveis
variaacuteveis que podem ser levadas em consideraccedilatildeo Isto permite natildeo apenas a estimaccedilatildeo
dessa probabilidade mas tambeacutem como traccedilar o perfil de um bom ou mau pagador
Haacute diversas teacutecnicas de mineraccedilatildeo de dados cada uma com suas particularidades
a escolha da tarefa a ser utilizada eacute um importante passo para a obtenccedilatildeo de resultados
satisfatoacuterios dentro de um determinado estudo isto soacute eacute possiacutevel com a compreensatildeo da
mesma e de sua capacidade
Capiacutetulo 1 Introduccedilatildeo 13
Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como
eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de
meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes
domiacutenios nos quais esta teacutecnica pode ser aplicada
11 Objetivos
O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como
ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio
de exemplos de aplicaccedilotildees
111 Objetivos Especiacuteficos
Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos
bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos
bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica
bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental
e epidemioloacutegica apontando seus resultados
12 Organizaccedilatildeo do Trabalho
O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2
apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica
a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo
O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito
neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas
aacutereas
Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do
que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado
e as consideraccedilotildees finais
14
2 Regressatildeo Logiacutestica
A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis
em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para
agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam
de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)
Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste
em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado
de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos
preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis
independentes ou explicativas
A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel
dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas
que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel
dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo
1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja
indicando dois possiacuteveis valores ou categorias
A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo
fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica
eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as
variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas
Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias
da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de
determinado evento assim como a influecircncia de cada variaacutevel independente no evento
estudado
Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-
zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais
diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de
voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de
outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados
categoacutericos
Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica
binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico
e quais os testes que avaliam a significatildencia de um modelo estimado
Capiacutetulo 2 Regressatildeo Logiacutestica 15
21 Definiccedilatildeo
A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir
a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores
tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais
variaacuteveis independentes contiacutenuas eou binaacuterias
Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade
de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria
Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio
do sono potencialmente grave em que a pessoa para de respirar por alguns segundos
diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio
mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para
esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele
tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a
ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As
variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica
propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa
prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade
desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo
logiacutestica
O modelo de regressatildeo logiacutestica permite
bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis
independentes que podem ser categoacutericas ou contiacutenuas
Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do
sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos
ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado
seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor
seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de
ter apneia do sono
bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada
aleatoriamente contra a probabilidade do evento natildeo ocorrer
Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia
A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de
um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp
1 minus pque
eacute chamada de chance Assim temos0 750 25
= 3 isto significa que uma pessoa nessas
caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter
Capiacutetulo 2 Regressatildeo Logiacutestica 16
bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria
Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel
peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel
idade natildeo contribui tanto para a eficaacutecia do mesmo
bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma
categoria determinada
A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos
ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio
A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes
casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade
desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da
distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)
Y =
1 se ocorrer sucesso
0 se ocorrerfracasso
A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p
Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma
combinaccedilatildeo linear de variaacuteveis independentes
22 A Funccedilatildeo Logit
Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue
a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave
distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na
regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas
de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma
combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p
Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio
uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar
qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1
A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural
o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21
ln(odds) rArr ln
(
p
1 minus p
)
(21)
Fonte Adaptado de (POWERS XIE 1999)
Capiacutetulo 2 Regressatildeo Logiacutestica 17
Figura 1 ndash Graacutefico da funccedilatildeo logit(p)
Fonte Produzido pelo autor
Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo
vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica
comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =
indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro
desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito
uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste
modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou
inferior a 0
Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo
o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades
satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0
No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas
queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa
da funccedilatildeo logit A partir da equaccedilatildeo(21) temos
logitminus1(α) =1
1 + eminusα=
eα
1 + eα(22)
Adaptado de (MESQUITA 2014)
Capiacutetulo 2 Regressatildeo Logiacutestica 18
α = combinaccedilatildeo linear
No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus
coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y
ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)
Fonte Produzido pelo autor
Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas
90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao
inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y
A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma
parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila
eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x
causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de
mudanccedila de estado da variaacutevel y em funccedilatildeo de x
Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo
entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos
que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento
aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem
sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da
inversa do logit na Figura 2
Capiacutetulo 2 Regressatildeo Logiacutestica 19
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado
Fontelthttpsgooglnwec4Qgt
23 Regressatildeo Logiacutestica Binaacuteria
A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica
em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e
tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens
de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute
dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E
neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por
exemplo
Digamos entatildeo que
g(x) = β0 + β1x1 (23)
Fonte (FIGUEIRA 2006)
seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes
e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada
Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)
ln
(
p
1 minus p
)
= β0 + β1x1
Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p
Pra isso utiliza-se o antilogaritmo
Capiacutetulo 2 Regressatildeo Logiacutestica 20
p
1 minus p= eβ0+β1
Seguindo com o procedimento para isolar p obtemos
p =eβ0+β1x1
1 + eβ0+β1x1
=1
1 + eminus(β0+β1x1)(24)
Fonte Adaptado de (MESQUITA 2014)
A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a
funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade
estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta
equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima
verossimilhanccedila conforme explicado na subseccedilatildeo seguinte
231 Estimando os coeficientes do modelo de regressatildeo
Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1
do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A
partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar
os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que
maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima
verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem
maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra
Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =
π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado
em xi
As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de
verossimilhanccedila eacute
L(β) =nprod
i=1
π(xi)yi [1 minus π(xi)]1minusyi (25)
Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo
log-verossimilhanccedila
l(β) = ln[L(β)] =nsum
i=1
[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)
Capiacutetulo 2 Regressatildeo Logiacutestica 21
O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-
metros (β0 β1)
part ln[L(β)]partβ0
=nsum
i=1
[yi minus π(xi)] (27)
part ln[L(β)]partβ1
=nsum
i=1
xi[yi minus π(xi)] (28)
Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees
(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de
variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa
que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a
sua variaacutevel independente xi
As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar
mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado
que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um
procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente
novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores
ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos
repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila
Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada
por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente
complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos
como SPSS1 SAS2 entre outros
24 Regressatildeo Logiacutestica Muacuteltipla
A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que
a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute
mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a
variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente
eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o
peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo
logiacutestica muacuteltipla
Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa
semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt
Capiacutetulo 2 Regressatildeo Logiacutestica 22
apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo
com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para
o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla
como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria
Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos
considerar este conjunto denotado por X = (x1 x2 xt)
Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para
este conjunto de variaacuteveis eacute definida como
g(x) = β0 + β1x1 + β2x2 + + βtxt (29)
Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo
ln
(
p
1 minus p
)
= β0 + β1x1 + β2x2 + + βtxt (210)
Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-
ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica
muacuteltipla para a probabilidade estimada p
p =eβ0+β1x1+β2x2++βtxt
1 + eβ0+β1x1+β2x2++βtxt
=1
1 + eminus(β0+β1x1+β2x2++βtxt)(211)
A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que
π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis
independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila
eacute obtida como
l(β) =nsum
i=1
[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)
As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas
equaccedilotildees 212 e 213
partl(β)partβ0
=nsum
i=1
yi minusnsum
i=1
πi = 0 (213)
partl(β)partβj
=nsum
i=1
xijyi minusnsum
i=1
xijπi = 0 para j isin 1 t (214)
Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)
πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila
Capiacutetulo 2 Regressatildeo Logiacutestica 23
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das
variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica
para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas
com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes
mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2
de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)
Veremos a seguir cada um deles
251 Teste da Razatildeo de Verossimilhanccedila
Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado
Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila
Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a
β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de
(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo
de verossimilhanccedila eacute expressa da seguinte forma
D = minus2 ln
[
verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado
]
(215)
D = minus2nsum
i=1
[
yi ln
(
πi
yi
)
+ (1 minus yi) ln
(
1 minus πi
1 minus yi
)]
(216)
O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado
corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D
tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o
ajuste do modelo
Queremos testar as hipoacuteteses
H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0
Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados
a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese
alternativa H1
Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de
D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela
inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de
G = D
(
modelo sem a variaacutevelmodelo com a variaacutevel
)
(217)
Capiacutetulo 2 Regressatildeo Logiacutestica 24
Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-
tiva para o modelo
252 Teste de Wald
O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da
significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-
tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada
variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel
dependente
Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-
los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do
objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou
no grupo da natildeo ocorrecircncia do evento (Y = 0)
O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de
um coeficiente e a estimativa do seu erro padratildeo
Wj =βj
var(βj)(218)
Fonte (BATISTA 2015)
Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA
2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos
ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo
quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de
Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado
253 Pseudo R2 de Cox e Snell
A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de
um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo
logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo
linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica
onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato
de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa
similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2
Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive
citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor
Capiacutetulo 2 Regressatildeo Logiacutestica 25
em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a
regressatildeo linear
Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um
dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na
equaccedilatildeo 217
R2 = 1 minus
(
L(β)0
L(β)M
)
2n (219)
Fonte (BATISTA 2015)
Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para
um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A
racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que
depende da probabilidade assumida pelos modelos com e sem preditores
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell
Fonte FIGUEIRA (2006)
O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute
menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente
De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-
dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No
exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40
Este mecanismo pode ser usado para comparar o desempenho de modelos concor-
rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais
elevado
26 Consideraccedilotildees Finais
Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de
dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente
dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de
Capiacutetulo 2 Regressatildeo Logiacutestica 26
variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta
teacutecnica
O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo
de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo
entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam
nos coeficientes que compotildeem o modelo
Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se
que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de
avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos
com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da
regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo
27
3 Aplicaccedilotildees de Regressatildeo Logiacutestica
Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela
primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras
aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias
Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica
ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou
o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este
trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos
envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede
Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de
regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer
e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo
para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria
administraccedilatildeo educaccedilatildeo ambiental e outros
Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de
regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de
creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente
31 Gestatildeo de creacutedito
Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute
muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu
reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou
pagamentos afirma Batista (2015)
Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou
retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de
creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado
atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade
destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante
miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e
concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo
estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento
em relaccedilatildeo agrave pontualidade e regularidade dos mesmos
A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando
no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28
eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)
311 Risco de creacutedito
No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma
transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras
lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito
O simples ato de emprestar uma quantia ou algum item a alguem envolve a
possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza
que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo
entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do
devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso
A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa
gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de
insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)
Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do
creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada
empresa
312 Regressatildeo logiacutestica para anaacutelise de creacutedito
Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de
modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes
para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo
com Gouvecirca Gonccedilalves e Mantovani (2013)
Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-
ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da
instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos
Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de
decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar
ganhos financeiros para a instituiccedilatildeo
A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por
exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade
e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees
qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de
pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam
classificar um perfil de adimplecircncia ou inadimplecircncia
Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29
passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos
90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real
Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit
scoring (CROOK EDELMAN THOMAS 2007)
A seguir veremos os passos para se construir um modelo de credit scoring utilizando
a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)
1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com
base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade
desta base de dados para resultar em um modelo de sucesso
2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da
variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem
variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se
aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente
bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo
devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica
3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute
sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente
neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes
devido agrave diferenccedila de tamanho
4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios
estatiacutesticos cada variaacutevel a ser utilizada no modelo
5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e
das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica
a fim de obter o modelo de regressatildeo
Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado
como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel
dependente binaacuteria Y pode assumir os valores
Y =
1 bom cliente
0 mau cliente
A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes
mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica
de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo
logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30
probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um
mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de
um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03
Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis
independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria
ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das
parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras
Destaca-se portanto que cada estudo oferece um resultado particular pois depende do
que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e
da poliacutetica de cada instituiccedilatildeo
Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito
pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia
aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a
cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado
obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e
consequentemente a perda do creacutedito
313 Aplicaccedilatildeo Exemplo
A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um
modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os
dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso
e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no
municiacutepio de Viccedilosa-MG
De acordo com os referidos autores a base amostral deste estudo foi composta
pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes
legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia
das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos
atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema
fornecido pela agecircncia bancaacuteria em estudo
A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos
clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que
tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise
de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de
relacionamento com o banco a renda o limite do cheque especial o estado civil e a
escolaridade
Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2
divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31
clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino
meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para
poacutes-graduccedilatildeo ou acima disto
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo
Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336
Fonte Adaptado de Ferreira Celso e Neto (2012)
Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos
atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na
Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados
Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento
de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste
cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1
representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na
equaccedilatildeo 31
p =1
1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)
Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e
Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que
clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores
observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e
maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo
agrave inadimplecircncia
32 Anaacutelise ambiental
O homem tem usado e modificado o solo haacute milhares de anos a fim de seu
proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura
urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender
a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32
Fatores como o crescimento populacional e a alta demanda por alimentos e outros
recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas
de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma
das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos
diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma
Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do
homem
Figura 5 ndash Componentes da mudanccedila ambiental global
Fonte VALENCIA (2008)
Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de
km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto
isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e
Foley (1999 apud VALENCIA 2008)
Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza
O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos
naturais dele para a realizaccedilatildeo das mesmas
A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas
do uso do solo
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33
bull Cobertura de solo
A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas
bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo
Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros
bull Uso do solo
O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo
Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem
do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso
do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas
executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo
com FAO (1998 apud VALENCIA 2008)
Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes
usos de solo podem ser realizados em uma mesma cobertura de solo assim como
diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como
mostrado na Tabela 2
Tabela 2 ndash Uso e Cobertura do solo
Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte
Fonte VALENCIA (2008)
bull Mudanccedilas do uso do solo
O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as
mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais
simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou
reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do
solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do
solo pode mudar mesmo se mantendo inalterado seu uso
Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas
de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do
solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente
relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers
(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34
uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras
agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade
a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades
humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes
no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os
dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por
sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra
321 Regressatildeo logiacutestica na anaacutelise ambiental
Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um
conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em
condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo
Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se
como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que
mais contribuem para a ocorrecircncia destas mudanccedilas
O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para
avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma
determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y
denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem
uso agriacutecola
Y =
1 aacutereas com uso agriacutecola
0 aacutereas sem uso agriacutecola
A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre
estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel
tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso
agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das
variaacuteveis independentes a serem consideradas na anaacutelise
A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem
de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados
ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por
exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute
encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes
Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)
que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo
meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35
devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites
florestais entre outros
A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma
aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis
independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo
(natildeo agriacutecola para agriacutecola)
322 Aplicaccedilatildeo Exemplo
O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia
Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo
de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este
estudo foi realizado por Mendes e Vega (2011)
Para a base amostral deste estudo o autor considerou imagens da BAP correspon-
dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a
gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou
aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-
pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a
transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os
pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000
Fonte Mendes e Vega (2011)
Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36
agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto
X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram
incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa
significacircncia para o modelo
A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico
com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de
regressatildeo logiacutestica pode ser observado na Figura 7
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico
Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia
anualTMA oC
Balanccedilo hiacutedricoclimaacutetico meacutedio anual
BHC mmano
Distacircncias para assedes urbanas de
municiacutepios brasileirosinseridos na bacia
D_URBMuacuteltiplos de
graus
Cotas topograacuteficas nabacia pelo lado
brasileiroTOPO m
Cotas topograacuteficasreclassificadas (le 150
m ge 150 m)TOPO_REC 1-2
Distacircncias paraestradas principais(pavimentadas e
federais) brasileirasinseridas na bacia
D_ESTRADAMuacuteltiplos de
graus
Distacircncias para asferrovias brasileirasinseridas na bacia
D_FERROMuacuteltiplos de
graus
Fonte Adaptado de Mendes e Vega (2011)
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados
Fonte Mendes e Vega (2011)
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37
Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute
categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-
ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em
aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e
facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-
mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento
estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas
33 Oacutebito Neonatal
O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias
incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os
sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes
Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias
incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de
neomorto
A mortalidade infantil pode ser considerada um dos melhores indicadores da
qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo
Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo
formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia
ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)
Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130
milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no
periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA
variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de
vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia
Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa
de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et
al 2005)
No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas
apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo
dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo
com as taxas de mortalidade poacutes-neonatal
Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal
teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que
possibilitem identificar os fatores de risco para o oacutebito neonatal
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal
Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-
geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo
consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do
que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos
do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et
al 2011)
A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar
a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer
niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias
separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo
Goldstein (2003)
Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito
neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada
A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em
crianccedilas com menos de 28 dias de vida
Y =
1 ocorrecircncia do oacutebito neonatal
0 natildeo ocorrecircncia do oacutebito neonatal
Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas
satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas
em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar
no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)
tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de
pessoas que moram no mesmo domiciacutelio entre outros
O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil
neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute
importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do
oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de
risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta
a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados
332 Aplicaccedilatildeo Exemplo
Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a
mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos
os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39
De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na
cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de
dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar
os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste
periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos
1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros
A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a
ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo
relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos
de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de
consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e
abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel
dependente foram consideradas estatisticamente significantes
Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-
nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo
varia de 0 a 10 e quanto mais proacuteximo de 10 melhor
Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves
dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4
informa o OR de quatro das variaacuteveis independentes inclusas neste estudo
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo
Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076
Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)
O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo
entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo
Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das
variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos
Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances
iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro
grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo
Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a
variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura
do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40
agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo
(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito
em comparaccedilatildeo agraves crianccedilas a termo
As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de
unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo
de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por
exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave
oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6
Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o
sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator
preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito
34 Consideraccedilotildees Finais
Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido
em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de
creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes
trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser
estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e
um estudo de caso realizado utilizando esta teacutecnica
A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser
usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo
anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo
gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre
o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois
objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees
finais limitaccedilotildees e trabalhos futuros
41
4 Conclusatildeo
O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de
regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de
informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que
ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem
analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que
assumem os valores da variaacutevel dependente
No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo
de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a
muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo
da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo
logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald
satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo
R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado
No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo
logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado
o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso
da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os
resultados obtidos
A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado
neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o
desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente
utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que
atuam com concessatildeo de creacutedito a seus clientes
O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e
o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados
nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo
de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas
Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro
meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja
indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal
caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador
caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo
linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua
A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo
Capiacutetulo 4 Conclusatildeo 42
logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta
de anaacutelise de dados de resposta categoacuterica
Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras
no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi
dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem
dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo
exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar
a regressatildeo logiacutestica com base nesses conceitos
Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo
logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel
eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo
epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios
de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada
um destes grupos entre outras possibilidades
43
Referecircncias
AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12
BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo
de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27
BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel
e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16
BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta
Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27
CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23
CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28
COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27
CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23
CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29
FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31
FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33
GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38
GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp
Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29
Referecircncias 44
HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24
HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27
HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23
JENNINGS D E Judging inference adequacy in logistic regression Journal of the
American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24
KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37
LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33
MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev
Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40
MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27
MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35
MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de
PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20
POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16
RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32
RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de
Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14
TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27
Referecircncias 45
VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila
do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33
ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38
ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37
Agradecimentos
Em especial aos meus pais Lorenzo Gonzalez Ruiz e Erciacutelia Maria Menezes de
Azevedo que satildeo os maiores incentivadores dos meus estudos por todo o esforccedilo dedicado
para que eu tivesse uma boa educaccedilatildeo
Ao meu orientador professor Ivo Joseacute da Cunha Serra pela sua orientaccedilatildeo elogios
conselhos confianccedila e empenho depositados em mim e no desenvolvimento deste trabalho
Agradeccedilo tambeacutem aos professores Tiago e Samyr que gentilmente aceitaram o convite
para a Banca Examinadora deste trabalho
Ao corpo docente do curso de Ciecircncia da Computaccedilatildeo pelo ensino e contribuiccedilatildeo
para a minha formaccedilatildeo acadecircmica e agrave todos os professores pelos quais eu passei desde o
ensino infantil
Aos familiares e amigos que estiveram presentes durante este processo Aos cole-
gas discentes do curso de Ciecircncia da Computaccedilatildeo os quais dividimos as dificuldades e
compartilhamos o aprendizado
Resumo
Devido ao crescente volume de dados computacionais que satildeo produzidos e armazenados
teacutecnicas de mineraccedilatildeo de dados tornam-se cada vez mais necessaacuterias para a procura de
padrotildees relevantes de informaccedilotildees nestes grandes volumes Este trabalho descreve e analisa
a regressatildeo logiacutestica que eacute uma teacutecnica para mineraccedilatildeo de dados de resposta categoacuterica
nas suas formas binaacuteria e muacuteltipla Satildeo discutidos meacutetodos tanto para a estimaccedilatildeo do
modelo de regressatildeo como para a avaliaccedilatildeo do modelo gerado Exemplos de aplicaccedilatildeo
da regressatildeo logiacutestica satildeo apresentados na aacuterea financeira ambiental e epidemioloacutegica os
quais mostram o possiacutevel uso desta teacutecnica nestas diferentes aacutereas e a destacam como uma
forte ferramenta de anaacutelise de dados de resposta categoacuterica que possibilita a estimaccedilatildeo da
probabilidade de ocorrecircncia de eventos assim como a avaliaccedilatildeo dos fatores que contribuem
para o mesmo
Palavras-chave Mineraccedilatildeo de Dados Regressatildeo Logiacutestica Aplicaccedilotildees de Regressatildeo
Logiacutestica
Abstract
Due to the increasing volume of computational data that is produced and stored data
mining techniques are becoming each more time more required to the search of relevant
information patterns in these large volumes This paper describes and analyses the logistic
regression which is a technique for data mining of categorical response in its binary and
multiple forms Methods are discussed both for the estimation of the regression model
and for the evaluation of the model generated Examples of the application of logistic
regression are presented in the financial environmental and epidemiological areas which
show the possible use of this technique in these different areas and stand out as a strong
tool of data analysis of categorical response which allows estimation of the probability of
occurrence of events as well as the evaluation of the contributing factors to them
Keywords Data Mining Logistic Regression Logistic Regression Applications
Lista de ilustraccedilotildees
Figura 1 ndash Graacutefico da funccedilatildeo logit(p) 17
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p) 18
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado 19
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell 25
Figura 5 ndash Componentes da mudanccedila ambiental global 32
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000 35
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados 36
Lista de tabelas
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo 31
Tabela 2 ndash Uso e Cobertura do solo 33
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico 36
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo 39
Lista de abreviaturas e siglas
BAP Bacia Hidrograacutefica do Alto Paraguai
OR Odds Ratio
Sumaacuterio
1 INTRODUCcedilAtildeO 12
11 Objetivos 13
111 Objetivos Especiacuteficos 13
12 Organizaccedilatildeo do Trabalho 13
2 REGRESSAtildeO LOGIacuteSTICA 14
21 Definiccedilatildeo 15
22 A Funccedilatildeo Logit 16
23 Regressatildeo Logiacutestica Binaacuteria 19
231 Estimando os coeficientes do modelo de regressatildeo 20
24 Regressatildeo Logiacutestica Muacuteltipla 21
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico 23
251 Teste da Razatildeo de Verossimilhanccedila 23
252 Teste de Wald 24
253 Pseudo R2 de Cox e Snell 24
26 Consideraccedilotildees Finais 25
3 APLICACcedilOtildeES DE REGRESSAtildeO LOGIacuteSTICA 27
31 Gestatildeo de creacutedito 27
311 Risco de creacutedito 28
312 Regressatildeo logiacutestica para anaacutelise de creacutedito 28
313 Aplicaccedilatildeo Exemplo 30
32 Anaacutelise ambiental 31
321 Regressatildeo logiacutestica na anaacutelise ambiental 34
322 Aplicaccedilatildeo Exemplo 35
33 Oacutebito Neonatal 37
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal 38
332 Aplicaccedilatildeo Exemplo 38
34 Consideraccedilotildees Finais 40
4 CONCLUSAtildeO 41
REFEREcircNCIAS 43
12
1 Introduccedilatildeo
O presente trabalho apresenta a regressatildeo logiacutestica que consiste em uma teacutecnica
de mineraccedilatildeo de dados A mineraccedilatildeo de dados eacute uma ferramenta de apoio para tomada
de decisatildeo baseada em dados computacionais dos quais pretende-se extrair informaccedilotildees
relevantes de uma grande base de dados de forma a buscar vantagens competitivas ou
elaboraccedilatildeo de estrateacutegia
Estes conjuntos de grandes volumes de dados representam um custo tanto de
armazenamento quanto de processamento portanto eacute possiacutevel afirmar que a ideia de
adquirir conhecimento automaticamente destes grandes volumes atraveacutes da mineraccedilatildeo de
dados eacute altamente beneacutefico
Este processo pode empregar algoritmos de inteligecircncia artificial anaacutelise estatiacutestica
recuperaccedilatildeo de informaccedilatildeo reconhecimento de padrotildees e outros Segundo Hosmer e
Lemeshow (2000) meacutetodos de regressatildeo tem se tornado um componente integral para
qualquer anaacutelise de dados interessada em descrever a relaccedilatildeo entre uma variaacutevel resposta
(dependente) e uma ou mais variaacuteveis explicativas (independentes)
A principal diferenccedila da regressatildeo logiacutestica para a regressatildeo linear eacute que a variaacutevel
dependente na regressatildeo logiacutestica eacute categoacuterica e de acordo com Agresti (2002) o modelo
de regressatildeo logiacutestica eacute o modelo mais importante para dados de resposta categoacuterica
Aleacutem da variaacutevel dependente ser categoacuterica ela eacute frequentemente binaacuteria (dicotocirc-
mica) assumindo portanto dois valores que satildeo normalmente tratados como ldquosucessordquo
ou ldquofracassordquo Estes dois valores representam um evento que depende do estudo de caso
podendo ser por exemplo ou a concessatildeo ou a natildeo concessatildeo de creacutedito na aacuterea financeira
ou a presenccedila ou a natildeo presenccedila de uma doenccedila nos estudos epidemioloacutegicos ou a compra
ou a natildeo compra de um determinado produto na aacuterea de marketing entre outras diversas
possibilidades
Aplicaccedilotildees de anaacutelise de creacutedito por exemplo podem utilizar a regressatildeo logiacutestica
para calcular a probabilidade de um indiviacuteduo ser merecedor da concessatildeo de creacutedito
Informaccedilotildees pessoais como salaacuterio emprego tipo de moradia satildeo exemplos de possiacuteveis
variaacuteveis que podem ser levadas em consideraccedilatildeo Isto permite natildeo apenas a estimaccedilatildeo
dessa probabilidade mas tambeacutem como traccedilar o perfil de um bom ou mau pagador
Haacute diversas teacutecnicas de mineraccedilatildeo de dados cada uma com suas particularidades
a escolha da tarefa a ser utilizada eacute um importante passo para a obtenccedilatildeo de resultados
satisfatoacuterios dentro de um determinado estudo isto soacute eacute possiacutevel com a compreensatildeo da
mesma e de sua capacidade
Capiacutetulo 1 Introduccedilatildeo 13
Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como
eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de
meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes
domiacutenios nos quais esta teacutecnica pode ser aplicada
11 Objetivos
O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como
ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio
de exemplos de aplicaccedilotildees
111 Objetivos Especiacuteficos
Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos
bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos
bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica
bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental
e epidemioloacutegica apontando seus resultados
12 Organizaccedilatildeo do Trabalho
O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2
apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica
a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo
O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito
neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas
aacutereas
Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do
que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado
e as consideraccedilotildees finais
14
2 Regressatildeo Logiacutestica
A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis
em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para
agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam
de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)
Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste
em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado
de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos
preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis
independentes ou explicativas
A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel
dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas
que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel
dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo
1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja
indicando dois possiacuteveis valores ou categorias
A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo
fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica
eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as
variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas
Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias
da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de
determinado evento assim como a influecircncia de cada variaacutevel independente no evento
estudado
Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-
zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais
diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de
voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de
outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados
categoacutericos
Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica
binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico
e quais os testes que avaliam a significatildencia de um modelo estimado
Capiacutetulo 2 Regressatildeo Logiacutestica 15
21 Definiccedilatildeo
A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir
a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores
tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais
variaacuteveis independentes contiacutenuas eou binaacuterias
Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade
de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria
Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio
do sono potencialmente grave em que a pessoa para de respirar por alguns segundos
diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio
mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para
esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele
tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a
ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As
variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica
propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa
prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade
desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo
logiacutestica
O modelo de regressatildeo logiacutestica permite
bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis
independentes que podem ser categoacutericas ou contiacutenuas
Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do
sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos
ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado
seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor
seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de
ter apneia do sono
bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada
aleatoriamente contra a probabilidade do evento natildeo ocorrer
Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia
A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de
um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp
1 minus pque
eacute chamada de chance Assim temos0 750 25
= 3 isto significa que uma pessoa nessas
caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter
Capiacutetulo 2 Regressatildeo Logiacutestica 16
bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria
Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel
peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel
idade natildeo contribui tanto para a eficaacutecia do mesmo
bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma
categoria determinada
A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos
ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio
A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes
casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade
desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da
distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)
Y =
1 se ocorrer sucesso
0 se ocorrerfracasso
A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p
Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma
combinaccedilatildeo linear de variaacuteveis independentes
22 A Funccedilatildeo Logit
Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue
a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave
distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na
regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas
de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma
combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p
Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio
uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar
qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1
A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural
o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21
ln(odds) rArr ln
(
p
1 minus p
)
(21)
Fonte Adaptado de (POWERS XIE 1999)
Capiacutetulo 2 Regressatildeo Logiacutestica 17
Figura 1 ndash Graacutefico da funccedilatildeo logit(p)
Fonte Produzido pelo autor
Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo
vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica
comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =
indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro
desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito
uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste
modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou
inferior a 0
Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo
o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades
satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0
No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas
queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa
da funccedilatildeo logit A partir da equaccedilatildeo(21) temos
logitminus1(α) =1
1 + eminusα=
eα
1 + eα(22)
Adaptado de (MESQUITA 2014)
Capiacutetulo 2 Regressatildeo Logiacutestica 18
α = combinaccedilatildeo linear
No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus
coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y
ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)
Fonte Produzido pelo autor
Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas
90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao
inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y
A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma
parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila
eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x
causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de
mudanccedila de estado da variaacutevel y em funccedilatildeo de x
Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo
entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos
que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento
aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem
sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da
inversa do logit na Figura 2
Capiacutetulo 2 Regressatildeo Logiacutestica 19
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado
Fontelthttpsgooglnwec4Qgt
23 Regressatildeo Logiacutestica Binaacuteria
A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica
em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e
tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens
de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute
dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E
neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por
exemplo
Digamos entatildeo que
g(x) = β0 + β1x1 (23)
Fonte (FIGUEIRA 2006)
seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes
e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada
Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)
ln
(
p
1 minus p
)
= β0 + β1x1
Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p
Pra isso utiliza-se o antilogaritmo
Capiacutetulo 2 Regressatildeo Logiacutestica 20
p
1 minus p= eβ0+β1
Seguindo com o procedimento para isolar p obtemos
p =eβ0+β1x1
1 + eβ0+β1x1
=1
1 + eminus(β0+β1x1)(24)
Fonte Adaptado de (MESQUITA 2014)
A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a
funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade
estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta
equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima
verossimilhanccedila conforme explicado na subseccedilatildeo seguinte
231 Estimando os coeficientes do modelo de regressatildeo
Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1
do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A
partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar
os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que
maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima
verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem
maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra
Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =
π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado
em xi
As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de
verossimilhanccedila eacute
L(β) =nprod
i=1
π(xi)yi [1 minus π(xi)]1minusyi (25)
Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo
log-verossimilhanccedila
l(β) = ln[L(β)] =nsum
i=1
[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)
Capiacutetulo 2 Regressatildeo Logiacutestica 21
O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-
metros (β0 β1)
part ln[L(β)]partβ0
=nsum
i=1
[yi minus π(xi)] (27)
part ln[L(β)]partβ1
=nsum
i=1
xi[yi minus π(xi)] (28)
Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees
(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de
variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa
que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a
sua variaacutevel independente xi
As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar
mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado
que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um
procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente
novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores
ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos
repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila
Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada
por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente
complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos
como SPSS1 SAS2 entre outros
24 Regressatildeo Logiacutestica Muacuteltipla
A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que
a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute
mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a
variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente
eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o
peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo
logiacutestica muacuteltipla
Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa
semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt
Capiacutetulo 2 Regressatildeo Logiacutestica 22
apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo
com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para
o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla
como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria
Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos
considerar este conjunto denotado por X = (x1 x2 xt)
Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para
este conjunto de variaacuteveis eacute definida como
g(x) = β0 + β1x1 + β2x2 + + βtxt (29)
Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo
ln
(
p
1 minus p
)
= β0 + β1x1 + β2x2 + + βtxt (210)
Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-
ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica
muacuteltipla para a probabilidade estimada p
p =eβ0+β1x1+β2x2++βtxt
1 + eβ0+β1x1+β2x2++βtxt
=1
1 + eminus(β0+β1x1+β2x2++βtxt)(211)
A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que
π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis
independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila
eacute obtida como
l(β) =nsum
i=1
[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)
As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas
equaccedilotildees 212 e 213
partl(β)partβ0
=nsum
i=1
yi minusnsum
i=1
πi = 0 (213)
partl(β)partβj
=nsum
i=1
xijyi minusnsum
i=1
xijπi = 0 para j isin 1 t (214)
Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)
πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila
Capiacutetulo 2 Regressatildeo Logiacutestica 23
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das
variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica
para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas
com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes
mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2
de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)
Veremos a seguir cada um deles
251 Teste da Razatildeo de Verossimilhanccedila
Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado
Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila
Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a
β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de
(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo
de verossimilhanccedila eacute expressa da seguinte forma
D = minus2 ln
[
verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado
]
(215)
D = minus2nsum
i=1
[
yi ln
(
πi
yi
)
+ (1 minus yi) ln
(
1 minus πi
1 minus yi
)]
(216)
O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado
corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D
tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o
ajuste do modelo
Queremos testar as hipoacuteteses
H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0
Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados
a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese
alternativa H1
Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de
D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela
inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de
G = D
(
modelo sem a variaacutevelmodelo com a variaacutevel
)
(217)
Capiacutetulo 2 Regressatildeo Logiacutestica 24
Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-
tiva para o modelo
252 Teste de Wald
O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da
significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-
tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada
variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel
dependente
Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-
los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do
objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou
no grupo da natildeo ocorrecircncia do evento (Y = 0)
O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de
um coeficiente e a estimativa do seu erro padratildeo
Wj =βj
var(βj)(218)
Fonte (BATISTA 2015)
Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA
2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos
ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo
quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de
Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado
253 Pseudo R2 de Cox e Snell
A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de
um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo
logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo
linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica
onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato
de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa
similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2
Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive
citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor
Capiacutetulo 2 Regressatildeo Logiacutestica 25
em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a
regressatildeo linear
Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um
dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na
equaccedilatildeo 217
R2 = 1 minus
(
L(β)0
L(β)M
)
2n (219)
Fonte (BATISTA 2015)
Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para
um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A
racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que
depende da probabilidade assumida pelos modelos com e sem preditores
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell
Fonte FIGUEIRA (2006)
O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute
menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente
De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-
dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No
exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40
Este mecanismo pode ser usado para comparar o desempenho de modelos concor-
rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais
elevado
26 Consideraccedilotildees Finais
Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de
dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente
dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de
Capiacutetulo 2 Regressatildeo Logiacutestica 26
variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta
teacutecnica
O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo
de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo
entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam
nos coeficientes que compotildeem o modelo
Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se
que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de
avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos
com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da
regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo
27
3 Aplicaccedilotildees de Regressatildeo Logiacutestica
Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela
primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras
aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias
Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica
ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou
o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este
trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos
envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede
Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de
regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer
e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo
para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria
administraccedilatildeo educaccedilatildeo ambiental e outros
Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de
regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de
creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente
31 Gestatildeo de creacutedito
Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute
muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu
reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou
pagamentos afirma Batista (2015)
Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou
retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de
creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado
atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade
destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante
miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e
concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo
estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento
em relaccedilatildeo agrave pontualidade e regularidade dos mesmos
A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando
no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28
eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)
311 Risco de creacutedito
No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma
transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras
lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito
O simples ato de emprestar uma quantia ou algum item a alguem envolve a
possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza
que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo
entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do
devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso
A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa
gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de
insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)
Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do
creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada
empresa
312 Regressatildeo logiacutestica para anaacutelise de creacutedito
Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de
modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes
para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo
com Gouvecirca Gonccedilalves e Mantovani (2013)
Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-
ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da
instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos
Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de
decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar
ganhos financeiros para a instituiccedilatildeo
A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por
exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade
e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees
qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de
pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam
classificar um perfil de adimplecircncia ou inadimplecircncia
Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29
passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos
90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real
Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit
scoring (CROOK EDELMAN THOMAS 2007)
A seguir veremos os passos para se construir um modelo de credit scoring utilizando
a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)
1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com
base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade
desta base de dados para resultar em um modelo de sucesso
2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da
variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem
variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se
aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente
bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo
devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica
3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute
sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente
neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes
devido agrave diferenccedila de tamanho
4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios
estatiacutesticos cada variaacutevel a ser utilizada no modelo
5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e
das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica
a fim de obter o modelo de regressatildeo
Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado
como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel
dependente binaacuteria Y pode assumir os valores
Y =
1 bom cliente
0 mau cliente
A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes
mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica
de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo
logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30
probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um
mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de
um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03
Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis
independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria
ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das
parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras
Destaca-se portanto que cada estudo oferece um resultado particular pois depende do
que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e
da poliacutetica de cada instituiccedilatildeo
Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito
pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia
aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a
cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado
obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e
consequentemente a perda do creacutedito
313 Aplicaccedilatildeo Exemplo
A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um
modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os
dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso
e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no
municiacutepio de Viccedilosa-MG
De acordo com os referidos autores a base amostral deste estudo foi composta
pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes
legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia
das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos
atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema
fornecido pela agecircncia bancaacuteria em estudo
A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos
clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que
tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise
de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de
relacionamento com o banco a renda o limite do cheque especial o estado civil e a
escolaridade
Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2
divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31
clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino
meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para
poacutes-graduccedilatildeo ou acima disto
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo
Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336
Fonte Adaptado de Ferreira Celso e Neto (2012)
Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos
atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na
Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados
Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento
de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste
cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1
representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na
equaccedilatildeo 31
p =1
1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)
Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e
Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que
clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores
observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e
maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo
agrave inadimplecircncia
32 Anaacutelise ambiental
O homem tem usado e modificado o solo haacute milhares de anos a fim de seu
proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura
urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender
a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32
Fatores como o crescimento populacional e a alta demanda por alimentos e outros
recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas
de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma
das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos
diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma
Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do
homem
Figura 5 ndash Componentes da mudanccedila ambiental global
Fonte VALENCIA (2008)
Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de
km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto
isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e
Foley (1999 apud VALENCIA 2008)
Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza
O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos
naturais dele para a realizaccedilatildeo das mesmas
A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas
do uso do solo
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33
bull Cobertura de solo
A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas
bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo
Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros
bull Uso do solo
O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo
Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem
do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso
do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas
executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo
com FAO (1998 apud VALENCIA 2008)
Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes
usos de solo podem ser realizados em uma mesma cobertura de solo assim como
diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como
mostrado na Tabela 2
Tabela 2 ndash Uso e Cobertura do solo
Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte
Fonte VALENCIA (2008)
bull Mudanccedilas do uso do solo
O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as
mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais
simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou
reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do
solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do
solo pode mudar mesmo se mantendo inalterado seu uso
Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas
de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do
solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente
relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers
(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34
uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras
agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade
a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades
humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes
no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os
dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por
sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra
321 Regressatildeo logiacutestica na anaacutelise ambiental
Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um
conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em
condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo
Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se
como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que
mais contribuem para a ocorrecircncia destas mudanccedilas
O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para
avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma
determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y
denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem
uso agriacutecola
Y =
1 aacutereas com uso agriacutecola
0 aacutereas sem uso agriacutecola
A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre
estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel
tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso
agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das
variaacuteveis independentes a serem consideradas na anaacutelise
A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem
de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados
ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por
exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute
encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes
Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)
que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo
meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35
devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites
florestais entre outros
A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma
aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis
independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo
(natildeo agriacutecola para agriacutecola)
322 Aplicaccedilatildeo Exemplo
O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia
Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo
de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este
estudo foi realizado por Mendes e Vega (2011)
Para a base amostral deste estudo o autor considerou imagens da BAP correspon-
dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a
gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou
aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-
pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a
transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os
pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000
Fonte Mendes e Vega (2011)
Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36
agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto
X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram
incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa
significacircncia para o modelo
A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico
com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de
regressatildeo logiacutestica pode ser observado na Figura 7
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico
Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia
anualTMA oC
Balanccedilo hiacutedricoclimaacutetico meacutedio anual
BHC mmano
Distacircncias para assedes urbanas de
municiacutepios brasileirosinseridos na bacia
D_URBMuacuteltiplos de
graus
Cotas topograacuteficas nabacia pelo lado
brasileiroTOPO m
Cotas topograacuteficasreclassificadas (le 150
m ge 150 m)TOPO_REC 1-2
Distacircncias paraestradas principais(pavimentadas e
federais) brasileirasinseridas na bacia
D_ESTRADAMuacuteltiplos de
graus
Distacircncias para asferrovias brasileirasinseridas na bacia
D_FERROMuacuteltiplos de
graus
Fonte Adaptado de Mendes e Vega (2011)
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados
Fonte Mendes e Vega (2011)
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37
Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute
categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-
ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em
aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e
facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-
mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento
estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas
33 Oacutebito Neonatal
O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias
incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os
sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes
Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias
incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de
neomorto
A mortalidade infantil pode ser considerada um dos melhores indicadores da
qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo
Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo
formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia
ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)
Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130
milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no
periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA
variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de
vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia
Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa
de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et
al 2005)
No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas
apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo
dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo
com as taxas de mortalidade poacutes-neonatal
Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal
teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que
possibilitem identificar os fatores de risco para o oacutebito neonatal
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal
Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-
geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo
consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do
que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos
do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et
al 2011)
A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar
a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer
niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias
separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo
Goldstein (2003)
Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito
neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada
A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em
crianccedilas com menos de 28 dias de vida
Y =
1 ocorrecircncia do oacutebito neonatal
0 natildeo ocorrecircncia do oacutebito neonatal
Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas
satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas
em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar
no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)
tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de
pessoas que moram no mesmo domiciacutelio entre outros
O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil
neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute
importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do
oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de
risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta
a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados
332 Aplicaccedilatildeo Exemplo
Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a
mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos
os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39
De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na
cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de
dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar
os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste
periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos
1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros
A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a
ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo
relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos
de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de
consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e
abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel
dependente foram consideradas estatisticamente significantes
Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-
nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo
varia de 0 a 10 e quanto mais proacuteximo de 10 melhor
Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves
dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4
informa o OR de quatro das variaacuteveis independentes inclusas neste estudo
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo
Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076
Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)
O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo
entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo
Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das
variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos
Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances
iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro
grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo
Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a
variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura
do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40
agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo
(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito
em comparaccedilatildeo agraves crianccedilas a termo
As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de
unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo
de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por
exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave
oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6
Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o
sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator
preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito
34 Consideraccedilotildees Finais
Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido
em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de
creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes
trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser
estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e
um estudo de caso realizado utilizando esta teacutecnica
A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser
usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo
anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo
gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre
o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois
objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees
finais limitaccedilotildees e trabalhos futuros
41
4 Conclusatildeo
O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de
regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de
informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que
ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem
analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que
assumem os valores da variaacutevel dependente
No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo
de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a
muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo
da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo
logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald
satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo
R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado
No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo
logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado
o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso
da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os
resultados obtidos
A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado
neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o
desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente
utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que
atuam com concessatildeo de creacutedito a seus clientes
O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e
o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados
nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo
de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas
Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro
meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja
indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal
caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador
caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo
linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua
A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo
Capiacutetulo 4 Conclusatildeo 42
logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta
de anaacutelise de dados de resposta categoacuterica
Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras
no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi
dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem
dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo
exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar
a regressatildeo logiacutestica com base nesses conceitos
Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo
logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel
eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo
epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios
de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada
um destes grupos entre outras possibilidades
43
Referecircncias
AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12
BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo
de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27
BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel
e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16
BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta
Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27
CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23
CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28
COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27
CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23
CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29
FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31
FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33
GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38
GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp
Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29
Referecircncias 44
HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24
HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27
HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23
JENNINGS D E Judging inference adequacy in logistic regression Journal of the
American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24
KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37
LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33
MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev
Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40
MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27
MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35
MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de
PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20
POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16
RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32
RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de
Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14
TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27
Referecircncias 45
VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila
do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33
ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38
ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37
Resumo
Devido ao crescente volume de dados computacionais que satildeo produzidos e armazenados
teacutecnicas de mineraccedilatildeo de dados tornam-se cada vez mais necessaacuterias para a procura de
padrotildees relevantes de informaccedilotildees nestes grandes volumes Este trabalho descreve e analisa
a regressatildeo logiacutestica que eacute uma teacutecnica para mineraccedilatildeo de dados de resposta categoacuterica
nas suas formas binaacuteria e muacuteltipla Satildeo discutidos meacutetodos tanto para a estimaccedilatildeo do
modelo de regressatildeo como para a avaliaccedilatildeo do modelo gerado Exemplos de aplicaccedilatildeo
da regressatildeo logiacutestica satildeo apresentados na aacuterea financeira ambiental e epidemioloacutegica os
quais mostram o possiacutevel uso desta teacutecnica nestas diferentes aacutereas e a destacam como uma
forte ferramenta de anaacutelise de dados de resposta categoacuterica que possibilita a estimaccedilatildeo da
probabilidade de ocorrecircncia de eventos assim como a avaliaccedilatildeo dos fatores que contribuem
para o mesmo
Palavras-chave Mineraccedilatildeo de Dados Regressatildeo Logiacutestica Aplicaccedilotildees de Regressatildeo
Logiacutestica
Abstract
Due to the increasing volume of computational data that is produced and stored data
mining techniques are becoming each more time more required to the search of relevant
information patterns in these large volumes This paper describes and analyses the logistic
regression which is a technique for data mining of categorical response in its binary and
multiple forms Methods are discussed both for the estimation of the regression model
and for the evaluation of the model generated Examples of the application of logistic
regression are presented in the financial environmental and epidemiological areas which
show the possible use of this technique in these different areas and stand out as a strong
tool of data analysis of categorical response which allows estimation of the probability of
occurrence of events as well as the evaluation of the contributing factors to them
Keywords Data Mining Logistic Regression Logistic Regression Applications
Lista de ilustraccedilotildees
Figura 1 ndash Graacutefico da funccedilatildeo logit(p) 17
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p) 18
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado 19
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell 25
Figura 5 ndash Componentes da mudanccedila ambiental global 32
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000 35
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados 36
Lista de tabelas
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo 31
Tabela 2 ndash Uso e Cobertura do solo 33
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico 36
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo 39
Lista de abreviaturas e siglas
BAP Bacia Hidrograacutefica do Alto Paraguai
OR Odds Ratio
Sumaacuterio
1 INTRODUCcedilAtildeO 12
11 Objetivos 13
111 Objetivos Especiacuteficos 13
12 Organizaccedilatildeo do Trabalho 13
2 REGRESSAtildeO LOGIacuteSTICA 14
21 Definiccedilatildeo 15
22 A Funccedilatildeo Logit 16
23 Regressatildeo Logiacutestica Binaacuteria 19
231 Estimando os coeficientes do modelo de regressatildeo 20
24 Regressatildeo Logiacutestica Muacuteltipla 21
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico 23
251 Teste da Razatildeo de Verossimilhanccedila 23
252 Teste de Wald 24
253 Pseudo R2 de Cox e Snell 24
26 Consideraccedilotildees Finais 25
3 APLICACcedilOtildeES DE REGRESSAtildeO LOGIacuteSTICA 27
31 Gestatildeo de creacutedito 27
311 Risco de creacutedito 28
312 Regressatildeo logiacutestica para anaacutelise de creacutedito 28
313 Aplicaccedilatildeo Exemplo 30
32 Anaacutelise ambiental 31
321 Regressatildeo logiacutestica na anaacutelise ambiental 34
322 Aplicaccedilatildeo Exemplo 35
33 Oacutebito Neonatal 37
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal 38
332 Aplicaccedilatildeo Exemplo 38
34 Consideraccedilotildees Finais 40
4 CONCLUSAtildeO 41
REFEREcircNCIAS 43
12
1 Introduccedilatildeo
O presente trabalho apresenta a regressatildeo logiacutestica que consiste em uma teacutecnica
de mineraccedilatildeo de dados A mineraccedilatildeo de dados eacute uma ferramenta de apoio para tomada
de decisatildeo baseada em dados computacionais dos quais pretende-se extrair informaccedilotildees
relevantes de uma grande base de dados de forma a buscar vantagens competitivas ou
elaboraccedilatildeo de estrateacutegia
Estes conjuntos de grandes volumes de dados representam um custo tanto de
armazenamento quanto de processamento portanto eacute possiacutevel afirmar que a ideia de
adquirir conhecimento automaticamente destes grandes volumes atraveacutes da mineraccedilatildeo de
dados eacute altamente beneacutefico
Este processo pode empregar algoritmos de inteligecircncia artificial anaacutelise estatiacutestica
recuperaccedilatildeo de informaccedilatildeo reconhecimento de padrotildees e outros Segundo Hosmer e
Lemeshow (2000) meacutetodos de regressatildeo tem se tornado um componente integral para
qualquer anaacutelise de dados interessada em descrever a relaccedilatildeo entre uma variaacutevel resposta
(dependente) e uma ou mais variaacuteveis explicativas (independentes)
A principal diferenccedila da regressatildeo logiacutestica para a regressatildeo linear eacute que a variaacutevel
dependente na regressatildeo logiacutestica eacute categoacuterica e de acordo com Agresti (2002) o modelo
de regressatildeo logiacutestica eacute o modelo mais importante para dados de resposta categoacuterica
Aleacutem da variaacutevel dependente ser categoacuterica ela eacute frequentemente binaacuteria (dicotocirc-
mica) assumindo portanto dois valores que satildeo normalmente tratados como ldquosucessordquo
ou ldquofracassordquo Estes dois valores representam um evento que depende do estudo de caso
podendo ser por exemplo ou a concessatildeo ou a natildeo concessatildeo de creacutedito na aacuterea financeira
ou a presenccedila ou a natildeo presenccedila de uma doenccedila nos estudos epidemioloacutegicos ou a compra
ou a natildeo compra de um determinado produto na aacuterea de marketing entre outras diversas
possibilidades
Aplicaccedilotildees de anaacutelise de creacutedito por exemplo podem utilizar a regressatildeo logiacutestica
para calcular a probabilidade de um indiviacuteduo ser merecedor da concessatildeo de creacutedito
Informaccedilotildees pessoais como salaacuterio emprego tipo de moradia satildeo exemplos de possiacuteveis
variaacuteveis que podem ser levadas em consideraccedilatildeo Isto permite natildeo apenas a estimaccedilatildeo
dessa probabilidade mas tambeacutem como traccedilar o perfil de um bom ou mau pagador
Haacute diversas teacutecnicas de mineraccedilatildeo de dados cada uma com suas particularidades
a escolha da tarefa a ser utilizada eacute um importante passo para a obtenccedilatildeo de resultados
satisfatoacuterios dentro de um determinado estudo isto soacute eacute possiacutevel com a compreensatildeo da
mesma e de sua capacidade
Capiacutetulo 1 Introduccedilatildeo 13
Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como
eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de
meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes
domiacutenios nos quais esta teacutecnica pode ser aplicada
11 Objetivos
O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como
ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio
de exemplos de aplicaccedilotildees
111 Objetivos Especiacuteficos
Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos
bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos
bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica
bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental
e epidemioloacutegica apontando seus resultados
12 Organizaccedilatildeo do Trabalho
O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2
apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica
a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo
O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito
neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas
aacutereas
Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do
que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado
e as consideraccedilotildees finais
14
2 Regressatildeo Logiacutestica
A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis
em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para
agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam
de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)
Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste
em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado
de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos
preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis
independentes ou explicativas
A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel
dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas
que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel
dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo
1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja
indicando dois possiacuteveis valores ou categorias
A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo
fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica
eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as
variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas
Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias
da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de
determinado evento assim como a influecircncia de cada variaacutevel independente no evento
estudado
Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-
zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais
diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de
voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de
outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados
categoacutericos
Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica
binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico
e quais os testes que avaliam a significatildencia de um modelo estimado
Capiacutetulo 2 Regressatildeo Logiacutestica 15
21 Definiccedilatildeo
A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir
a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores
tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais
variaacuteveis independentes contiacutenuas eou binaacuterias
Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade
de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria
Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio
do sono potencialmente grave em que a pessoa para de respirar por alguns segundos
diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio
mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para
esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele
tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a
ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As
variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica
propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa
prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade
desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo
logiacutestica
O modelo de regressatildeo logiacutestica permite
bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis
independentes que podem ser categoacutericas ou contiacutenuas
Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do
sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos
ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado
seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor
seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de
ter apneia do sono
bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada
aleatoriamente contra a probabilidade do evento natildeo ocorrer
Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia
A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de
um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp
1 minus pque
eacute chamada de chance Assim temos0 750 25
= 3 isto significa que uma pessoa nessas
caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter
Capiacutetulo 2 Regressatildeo Logiacutestica 16
bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria
Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel
peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel
idade natildeo contribui tanto para a eficaacutecia do mesmo
bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma
categoria determinada
A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos
ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio
A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes
casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade
desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da
distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)
Y =
1 se ocorrer sucesso
0 se ocorrerfracasso
A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p
Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma
combinaccedilatildeo linear de variaacuteveis independentes
22 A Funccedilatildeo Logit
Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue
a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave
distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na
regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas
de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma
combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p
Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio
uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar
qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1
A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural
o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21
ln(odds) rArr ln
(
p
1 minus p
)
(21)
Fonte Adaptado de (POWERS XIE 1999)
Capiacutetulo 2 Regressatildeo Logiacutestica 17
Figura 1 ndash Graacutefico da funccedilatildeo logit(p)
Fonte Produzido pelo autor
Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo
vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica
comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =
indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro
desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito
uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste
modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou
inferior a 0
Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo
o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades
satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0
No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas
queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa
da funccedilatildeo logit A partir da equaccedilatildeo(21) temos
logitminus1(α) =1
1 + eminusα=
eα
1 + eα(22)
Adaptado de (MESQUITA 2014)
Capiacutetulo 2 Regressatildeo Logiacutestica 18
α = combinaccedilatildeo linear
No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus
coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y
ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)
Fonte Produzido pelo autor
Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas
90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao
inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y
A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma
parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila
eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x
causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de
mudanccedila de estado da variaacutevel y em funccedilatildeo de x
Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo
entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos
que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento
aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem
sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da
inversa do logit na Figura 2
Capiacutetulo 2 Regressatildeo Logiacutestica 19
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado
Fontelthttpsgooglnwec4Qgt
23 Regressatildeo Logiacutestica Binaacuteria
A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica
em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e
tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens
de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute
dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E
neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por
exemplo
Digamos entatildeo que
g(x) = β0 + β1x1 (23)
Fonte (FIGUEIRA 2006)
seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes
e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada
Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)
ln
(
p
1 minus p
)
= β0 + β1x1
Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p
Pra isso utiliza-se o antilogaritmo
Capiacutetulo 2 Regressatildeo Logiacutestica 20
p
1 minus p= eβ0+β1
Seguindo com o procedimento para isolar p obtemos
p =eβ0+β1x1
1 + eβ0+β1x1
=1
1 + eminus(β0+β1x1)(24)
Fonte Adaptado de (MESQUITA 2014)
A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a
funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade
estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta
equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima
verossimilhanccedila conforme explicado na subseccedilatildeo seguinte
231 Estimando os coeficientes do modelo de regressatildeo
Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1
do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A
partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar
os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que
maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima
verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem
maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra
Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =
π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado
em xi
As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de
verossimilhanccedila eacute
L(β) =nprod
i=1
π(xi)yi [1 minus π(xi)]1minusyi (25)
Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo
log-verossimilhanccedila
l(β) = ln[L(β)] =nsum
i=1
[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)
Capiacutetulo 2 Regressatildeo Logiacutestica 21
O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-
metros (β0 β1)
part ln[L(β)]partβ0
=nsum
i=1
[yi minus π(xi)] (27)
part ln[L(β)]partβ1
=nsum
i=1
xi[yi minus π(xi)] (28)
Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees
(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de
variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa
que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a
sua variaacutevel independente xi
As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar
mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado
que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um
procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente
novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores
ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos
repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila
Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada
por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente
complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos
como SPSS1 SAS2 entre outros
24 Regressatildeo Logiacutestica Muacuteltipla
A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que
a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute
mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a
variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente
eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o
peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo
logiacutestica muacuteltipla
Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa
semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt
Capiacutetulo 2 Regressatildeo Logiacutestica 22
apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo
com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para
o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla
como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria
Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos
considerar este conjunto denotado por X = (x1 x2 xt)
Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para
este conjunto de variaacuteveis eacute definida como
g(x) = β0 + β1x1 + β2x2 + + βtxt (29)
Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo
ln
(
p
1 minus p
)
= β0 + β1x1 + β2x2 + + βtxt (210)
Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-
ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica
muacuteltipla para a probabilidade estimada p
p =eβ0+β1x1+β2x2++βtxt
1 + eβ0+β1x1+β2x2++βtxt
=1
1 + eminus(β0+β1x1+β2x2++βtxt)(211)
A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que
π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis
independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila
eacute obtida como
l(β) =nsum
i=1
[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)
As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas
equaccedilotildees 212 e 213
partl(β)partβ0
=nsum
i=1
yi minusnsum
i=1
πi = 0 (213)
partl(β)partβj
=nsum
i=1
xijyi minusnsum
i=1
xijπi = 0 para j isin 1 t (214)
Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)
πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila
Capiacutetulo 2 Regressatildeo Logiacutestica 23
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das
variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica
para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas
com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes
mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2
de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)
Veremos a seguir cada um deles
251 Teste da Razatildeo de Verossimilhanccedila
Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado
Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila
Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a
β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de
(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo
de verossimilhanccedila eacute expressa da seguinte forma
D = minus2 ln
[
verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado
]
(215)
D = minus2nsum
i=1
[
yi ln
(
πi
yi
)
+ (1 minus yi) ln
(
1 minus πi
1 minus yi
)]
(216)
O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado
corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D
tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o
ajuste do modelo
Queremos testar as hipoacuteteses
H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0
Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados
a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese
alternativa H1
Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de
D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela
inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de
G = D
(
modelo sem a variaacutevelmodelo com a variaacutevel
)
(217)
Capiacutetulo 2 Regressatildeo Logiacutestica 24
Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-
tiva para o modelo
252 Teste de Wald
O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da
significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-
tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada
variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel
dependente
Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-
los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do
objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou
no grupo da natildeo ocorrecircncia do evento (Y = 0)
O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de
um coeficiente e a estimativa do seu erro padratildeo
Wj =βj
var(βj)(218)
Fonte (BATISTA 2015)
Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA
2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos
ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo
quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de
Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado
253 Pseudo R2 de Cox e Snell
A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de
um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo
logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo
linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica
onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato
de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa
similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2
Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive
citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor
Capiacutetulo 2 Regressatildeo Logiacutestica 25
em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a
regressatildeo linear
Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um
dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na
equaccedilatildeo 217
R2 = 1 minus
(
L(β)0
L(β)M
)
2n (219)
Fonte (BATISTA 2015)
Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para
um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A
racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que
depende da probabilidade assumida pelos modelos com e sem preditores
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell
Fonte FIGUEIRA (2006)
O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute
menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente
De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-
dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No
exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40
Este mecanismo pode ser usado para comparar o desempenho de modelos concor-
rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais
elevado
26 Consideraccedilotildees Finais
Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de
dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente
dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de
Capiacutetulo 2 Regressatildeo Logiacutestica 26
variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta
teacutecnica
O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo
de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo
entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam
nos coeficientes que compotildeem o modelo
Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se
que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de
avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos
com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da
regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo
27
3 Aplicaccedilotildees de Regressatildeo Logiacutestica
Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela
primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras
aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias
Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica
ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou
o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este
trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos
envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede
Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de
regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer
e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo
para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria
administraccedilatildeo educaccedilatildeo ambiental e outros
Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de
regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de
creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente
31 Gestatildeo de creacutedito
Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute
muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu
reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou
pagamentos afirma Batista (2015)
Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou
retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de
creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado
atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade
destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante
miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e
concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo
estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento
em relaccedilatildeo agrave pontualidade e regularidade dos mesmos
A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando
no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28
eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)
311 Risco de creacutedito
No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma
transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras
lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito
O simples ato de emprestar uma quantia ou algum item a alguem envolve a
possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza
que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo
entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do
devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso
A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa
gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de
insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)
Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do
creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada
empresa
312 Regressatildeo logiacutestica para anaacutelise de creacutedito
Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de
modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes
para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo
com Gouvecirca Gonccedilalves e Mantovani (2013)
Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-
ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da
instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos
Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de
decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar
ganhos financeiros para a instituiccedilatildeo
A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por
exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade
e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees
qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de
pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam
classificar um perfil de adimplecircncia ou inadimplecircncia
Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29
passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos
90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real
Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit
scoring (CROOK EDELMAN THOMAS 2007)
A seguir veremos os passos para se construir um modelo de credit scoring utilizando
a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)
1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com
base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade
desta base de dados para resultar em um modelo de sucesso
2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da
variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem
variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se
aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente
bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo
devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica
3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute
sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente
neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes
devido agrave diferenccedila de tamanho
4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios
estatiacutesticos cada variaacutevel a ser utilizada no modelo
5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e
das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica
a fim de obter o modelo de regressatildeo
Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado
como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel
dependente binaacuteria Y pode assumir os valores
Y =
1 bom cliente
0 mau cliente
A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes
mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica
de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo
logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30
probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um
mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de
um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03
Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis
independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria
ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das
parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras
Destaca-se portanto que cada estudo oferece um resultado particular pois depende do
que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e
da poliacutetica de cada instituiccedilatildeo
Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito
pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia
aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a
cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado
obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e
consequentemente a perda do creacutedito
313 Aplicaccedilatildeo Exemplo
A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um
modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os
dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso
e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no
municiacutepio de Viccedilosa-MG
De acordo com os referidos autores a base amostral deste estudo foi composta
pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes
legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia
das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos
atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema
fornecido pela agecircncia bancaacuteria em estudo
A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos
clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que
tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise
de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de
relacionamento com o banco a renda o limite do cheque especial o estado civil e a
escolaridade
Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2
divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31
clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino
meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para
poacutes-graduccedilatildeo ou acima disto
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo
Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336
Fonte Adaptado de Ferreira Celso e Neto (2012)
Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos
atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na
Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados
Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento
de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste
cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1
representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na
equaccedilatildeo 31
p =1
1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)
Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e
Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que
clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores
observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e
maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo
agrave inadimplecircncia
32 Anaacutelise ambiental
O homem tem usado e modificado o solo haacute milhares de anos a fim de seu
proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura
urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender
a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32
Fatores como o crescimento populacional e a alta demanda por alimentos e outros
recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas
de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma
das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos
diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma
Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do
homem
Figura 5 ndash Componentes da mudanccedila ambiental global
Fonte VALENCIA (2008)
Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de
km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto
isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e
Foley (1999 apud VALENCIA 2008)
Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza
O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos
naturais dele para a realizaccedilatildeo das mesmas
A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas
do uso do solo
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33
bull Cobertura de solo
A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas
bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo
Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros
bull Uso do solo
O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo
Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem
do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso
do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas
executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo
com FAO (1998 apud VALENCIA 2008)
Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes
usos de solo podem ser realizados em uma mesma cobertura de solo assim como
diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como
mostrado na Tabela 2
Tabela 2 ndash Uso e Cobertura do solo
Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte
Fonte VALENCIA (2008)
bull Mudanccedilas do uso do solo
O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as
mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais
simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou
reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do
solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do
solo pode mudar mesmo se mantendo inalterado seu uso
Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas
de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do
solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente
relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers
(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34
uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras
agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade
a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades
humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes
no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os
dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por
sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra
321 Regressatildeo logiacutestica na anaacutelise ambiental
Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um
conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em
condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo
Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se
como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que
mais contribuem para a ocorrecircncia destas mudanccedilas
O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para
avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma
determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y
denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem
uso agriacutecola
Y =
1 aacutereas com uso agriacutecola
0 aacutereas sem uso agriacutecola
A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre
estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel
tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso
agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das
variaacuteveis independentes a serem consideradas na anaacutelise
A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem
de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados
ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por
exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute
encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes
Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)
que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo
meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35
devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites
florestais entre outros
A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma
aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis
independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo
(natildeo agriacutecola para agriacutecola)
322 Aplicaccedilatildeo Exemplo
O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia
Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo
de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este
estudo foi realizado por Mendes e Vega (2011)
Para a base amostral deste estudo o autor considerou imagens da BAP correspon-
dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a
gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou
aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-
pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a
transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os
pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000
Fonte Mendes e Vega (2011)
Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36
agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto
X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram
incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa
significacircncia para o modelo
A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico
com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de
regressatildeo logiacutestica pode ser observado na Figura 7
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico
Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia
anualTMA oC
Balanccedilo hiacutedricoclimaacutetico meacutedio anual
BHC mmano
Distacircncias para assedes urbanas de
municiacutepios brasileirosinseridos na bacia
D_URBMuacuteltiplos de
graus
Cotas topograacuteficas nabacia pelo lado
brasileiroTOPO m
Cotas topograacuteficasreclassificadas (le 150
m ge 150 m)TOPO_REC 1-2
Distacircncias paraestradas principais(pavimentadas e
federais) brasileirasinseridas na bacia
D_ESTRADAMuacuteltiplos de
graus
Distacircncias para asferrovias brasileirasinseridas na bacia
D_FERROMuacuteltiplos de
graus
Fonte Adaptado de Mendes e Vega (2011)
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados
Fonte Mendes e Vega (2011)
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37
Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute
categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-
ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em
aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e
facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-
mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento
estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas
33 Oacutebito Neonatal
O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias
incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os
sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes
Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias
incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de
neomorto
A mortalidade infantil pode ser considerada um dos melhores indicadores da
qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo
Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo
formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia
ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)
Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130
milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no
periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA
variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de
vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia
Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa
de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et
al 2005)
No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas
apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo
dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo
com as taxas de mortalidade poacutes-neonatal
Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal
teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que
possibilitem identificar os fatores de risco para o oacutebito neonatal
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal
Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-
geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo
consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do
que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos
do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et
al 2011)
A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar
a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer
niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias
separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo
Goldstein (2003)
Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito
neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada
A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em
crianccedilas com menos de 28 dias de vida
Y =
1 ocorrecircncia do oacutebito neonatal
0 natildeo ocorrecircncia do oacutebito neonatal
Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas
satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas
em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar
no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)
tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de
pessoas que moram no mesmo domiciacutelio entre outros
O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil
neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute
importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do
oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de
risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta
a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados
332 Aplicaccedilatildeo Exemplo
Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a
mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos
os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39
De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na
cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de
dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar
os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste
periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos
1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros
A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a
ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo
relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos
de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de
consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e
abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel
dependente foram consideradas estatisticamente significantes
Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-
nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo
varia de 0 a 10 e quanto mais proacuteximo de 10 melhor
Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves
dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4
informa o OR de quatro das variaacuteveis independentes inclusas neste estudo
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo
Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076
Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)
O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo
entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo
Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das
variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos
Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances
iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro
grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo
Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a
variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura
do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40
agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo
(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito
em comparaccedilatildeo agraves crianccedilas a termo
As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de
unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo
de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por
exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave
oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6
Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o
sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator
preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito
34 Consideraccedilotildees Finais
Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido
em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de
creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes
trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser
estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e
um estudo de caso realizado utilizando esta teacutecnica
A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser
usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo
anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo
gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre
o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois
objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees
finais limitaccedilotildees e trabalhos futuros
41
4 Conclusatildeo
O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de
regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de
informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que
ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem
analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que
assumem os valores da variaacutevel dependente
No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo
de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a
muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo
da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo
logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald
satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo
R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado
No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo
logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado
o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso
da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os
resultados obtidos
A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado
neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o
desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente
utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que
atuam com concessatildeo de creacutedito a seus clientes
O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e
o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados
nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo
de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas
Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro
meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja
indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal
caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador
caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo
linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua
A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo
Capiacutetulo 4 Conclusatildeo 42
logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta
de anaacutelise de dados de resposta categoacuterica
Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras
no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi
dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem
dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo
exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar
a regressatildeo logiacutestica com base nesses conceitos
Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo
logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel
eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo
epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios
de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada
um destes grupos entre outras possibilidades
43
Referecircncias
AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12
BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo
de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27
BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel
e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16
BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta
Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27
CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23
CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28
COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27
CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23
CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29
FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31
FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33
GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38
GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp
Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29
Referecircncias 44
HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24
HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27
HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23
JENNINGS D E Judging inference adequacy in logistic regression Journal of the
American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24
KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37
LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33
MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev
Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40
MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27
MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35
MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de
PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20
POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16
RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32
RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de
Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14
TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27
Referecircncias 45
VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila
do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33
ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38
ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37
Abstract
Due to the increasing volume of computational data that is produced and stored data
mining techniques are becoming each more time more required to the search of relevant
information patterns in these large volumes This paper describes and analyses the logistic
regression which is a technique for data mining of categorical response in its binary and
multiple forms Methods are discussed both for the estimation of the regression model
and for the evaluation of the model generated Examples of the application of logistic
regression are presented in the financial environmental and epidemiological areas which
show the possible use of this technique in these different areas and stand out as a strong
tool of data analysis of categorical response which allows estimation of the probability of
occurrence of events as well as the evaluation of the contributing factors to them
Keywords Data Mining Logistic Regression Logistic Regression Applications
Lista de ilustraccedilotildees
Figura 1 ndash Graacutefico da funccedilatildeo logit(p) 17
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p) 18
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado 19
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell 25
Figura 5 ndash Componentes da mudanccedila ambiental global 32
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000 35
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados 36
Lista de tabelas
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo 31
Tabela 2 ndash Uso e Cobertura do solo 33
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico 36
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo 39
Lista de abreviaturas e siglas
BAP Bacia Hidrograacutefica do Alto Paraguai
OR Odds Ratio
Sumaacuterio
1 INTRODUCcedilAtildeO 12
11 Objetivos 13
111 Objetivos Especiacuteficos 13
12 Organizaccedilatildeo do Trabalho 13
2 REGRESSAtildeO LOGIacuteSTICA 14
21 Definiccedilatildeo 15
22 A Funccedilatildeo Logit 16
23 Regressatildeo Logiacutestica Binaacuteria 19
231 Estimando os coeficientes do modelo de regressatildeo 20
24 Regressatildeo Logiacutestica Muacuteltipla 21
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico 23
251 Teste da Razatildeo de Verossimilhanccedila 23
252 Teste de Wald 24
253 Pseudo R2 de Cox e Snell 24
26 Consideraccedilotildees Finais 25
3 APLICACcedilOtildeES DE REGRESSAtildeO LOGIacuteSTICA 27
31 Gestatildeo de creacutedito 27
311 Risco de creacutedito 28
312 Regressatildeo logiacutestica para anaacutelise de creacutedito 28
313 Aplicaccedilatildeo Exemplo 30
32 Anaacutelise ambiental 31
321 Regressatildeo logiacutestica na anaacutelise ambiental 34
322 Aplicaccedilatildeo Exemplo 35
33 Oacutebito Neonatal 37
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal 38
332 Aplicaccedilatildeo Exemplo 38
34 Consideraccedilotildees Finais 40
4 CONCLUSAtildeO 41
REFEREcircNCIAS 43
12
1 Introduccedilatildeo
O presente trabalho apresenta a regressatildeo logiacutestica que consiste em uma teacutecnica
de mineraccedilatildeo de dados A mineraccedilatildeo de dados eacute uma ferramenta de apoio para tomada
de decisatildeo baseada em dados computacionais dos quais pretende-se extrair informaccedilotildees
relevantes de uma grande base de dados de forma a buscar vantagens competitivas ou
elaboraccedilatildeo de estrateacutegia
Estes conjuntos de grandes volumes de dados representam um custo tanto de
armazenamento quanto de processamento portanto eacute possiacutevel afirmar que a ideia de
adquirir conhecimento automaticamente destes grandes volumes atraveacutes da mineraccedilatildeo de
dados eacute altamente beneacutefico
Este processo pode empregar algoritmos de inteligecircncia artificial anaacutelise estatiacutestica
recuperaccedilatildeo de informaccedilatildeo reconhecimento de padrotildees e outros Segundo Hosmer e
Lemeshow (2000) meacutetodos de regressatildeo tem se tornado um componente integral para
qualquer anaacutelise de dados interessada em descrever a relaccedilatildeo entre uma variaacutevel resposta
(dependente) e uma ou mais variaacuteveis explicativas (independentes)
A principal diferenccedila da regressatildeo logiacutestica para a regressatildeo linear eacute que a variaacutevel
dependente na regressatildeo logiacutestica eacute categoacuterica e de acordo com Agresti (2002) o modelo
de regressatildeo logiacutestica eacute o modelo mais importante para dados de resposta categoacuterica
Aleacutem da variaacutevel dependente ser categoacuterica ela eacute frequentemente binaacuteria (dicotocirc-
mica) assumindo portanto dois valores que satildeo normalmente tratados como ldquosucessordquo
ou ldquofracassordquo Estes dois valores representam um evento que depende do estudo de caso
podendo ser por exemplo ou a concessatildeo ou a natildeo concessatildeo de creacutedito na aacuterea financeira
ou a presenccedila ou a natildeo presenccedila de uma doenccedila nos estudos epidemioloacutegicos ou a compra
ou a natildeo compra de um determinado produto na aacuterea de marketing entre outras diversas
possibilidades
Aplicaccedilotildees de anaacutelise de creacutedito por exemplo podem utilizar a regressatildeo logiacutestica
para calcular a probabilidade de um indiviacuteduo ser merecedor da concessatildeo de creacutedito
Informaccedilotildees pessoais como salaacuterio emprego tipo de moradia satildeo exemplos de possiacuteveis
variaacuteveis que podem ser levadas em consideraccedilatildeo Isto permite natildeo apenas a estimaccedilatildeo
dessa probabilidade mas tambeacutem como traccedilar o perfil de um bom ou mau pagador
Haacute diversas teacutecnicas de mineraccedilatildeo de dados cada uma com suas particularidades
a escolha da tarefa a ser utilizada eacute um importante passo para a obtenccedilatildeo de resultados
satisfatoacuterios dentro de um determinado estudo isto soacute eacute possiacutevel com a compreensatildeo da
mesma e de sua capacidade
Capiacutetulo 1 Introduccedilatildeo 13
Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como
eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de
meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes
domiacutenios nos quais esta teacutecnica pode ser aplicada
11 Objetivos
O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como
ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio
de exemplos de aplicaccedilotildees
111 Objetivos Especiacuteficos
Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos
bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos
bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica
bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental
e epidemioloacutegica apontando seus resultados
12 Organizaccedilatildeo do Trabalho
O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2
apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica
a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo
O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito
neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas
aacutereas
Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do
que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado
e as consideraccedilotildees finais
14
2 Regressatildeo Logiacutestica
A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis
em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para
agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam
de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)
Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste
em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado
de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos
preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis
independentes ou explicativas
A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel
dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas
que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel
dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo
1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja
indicando dois possiacuteveis valores ou categorias
A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo
fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica
eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as
variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas
Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias
da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de
determinado evento assim como a influecircncia de cada variaacutevel independente no evento
estudado
Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-
zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais
diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de
voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de
outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados
categoacutericos
Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica
binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico
e quais os testes que avaliam a significatildencia de um modelo estimado
Capiacutetulo 2 Regressatildeo Logiacutestica 15
21 Definiccedilatildeo
A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir
a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores
tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais
variaacuteveis independentes contiacutenuas eou binaacuterias
Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade
de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria
Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio
do sono potencialmente grave em que a pessoa para de respirar por alguns segundos
diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio
mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para
esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele
tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a
ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As
variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica
propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa
prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade
desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo
logiacutestica
O modelo de regressatildeo logiacutestica permite
bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis
independentes que podem ser categoacutericas ou contiacutenuas
Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do
sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos
ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado
seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor
seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de
ter apneia do sono
bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada
aleatoriamente contra a probabilidade do evento natildeo ocorrer
Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia
A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de
um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp
1 minus pque
eacute chamada de chance Assim temos0 750 25
= 3 isto significa que uma pessoa nessas
caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter
Capiacutetulo 2 Regressatildeo Logiacutestica 16
bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria
Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel
peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel
idade natildeo contribui tanto para a eficaacutecia do mesmo
bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma
categoria determinada
A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos
ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio
A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes
casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade
desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da
distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)
Y =
1 se ocorrer sucesso
0 se ocorrerfracasso
A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p
Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma
combinaccedilatildeo linear de variaacuteveis independentes
22 A Funccedilatildeo Logit
Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue
a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave
distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na
regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas
de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma
combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p
Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio
uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar
qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1
A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural
o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21
ln(odds) rArr ln
(
p
1 minus p
)
(21)
Fonte Adaptado de (POWERS XIE 1999)
Capiacutetulo 2 Regressatildeo Logiacutestica 17
Figura 1 ndash Graacutefico da funccedilatildeo logit(p)
Fonte Produzido pelo autor
Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo
vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica
comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =
indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro
desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito
uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste
modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou
inferior a 0
Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo
o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades
satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0
No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas
queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa
da funccedilatildeo logit A partir da equaccedilatildeo(21) temos
logitminus1(α) =1
1 + eminusα=
eα
1 + eα(22)
Adaptado de (MESQUITA 2014)
Capiacutetulo 2 Regressatildeo Logiacutestica 18
α = combinaccedilatildeo linear
No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus
coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y
ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)
Fonte Produzido pelo autor
Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas
90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao
inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y
A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma
parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila
eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x
causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de
mudanccedila de estado da variaacutevel y em funccedilatildeo de x
Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo
entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos
que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento
aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem
sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da
inversa do logit na Figura 2
Capiacutetulo 2 Regressatildeo Logiacutestica 19
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado
Fontelthttpsgooglnwec4Qgt
23 Regressatildeo Logiacutestica Binaacuteria
A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica
em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e
tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens
de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute
dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E
neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por
exemplo
Digamos entatildeo que
g(x) = β0 + β1x1 (23)
Fonte (FIGUEIRA 2006)
seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes
e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada
Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)
ln
(
p
1 minus p
)
= β0 + β1x1
Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p
Pra isso utiliza-se o antilogaritmo
Capiacutetulo 2 Regressatildeo Logiacutestica 20
p
1 minus p= eβ0+β1
Seguindo com o procedimento para isolar p obtemos
p =eβ0+β1x1
1 + eβ0+β1x1
=1
1 + eminus(β0+β1x1)(24)
Fonte Adaptado de (MESQUITA 2014)
A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a
funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade
estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta
equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima
verossimilhanccedila conforme explicado na subseccedilatildeo seguinte
231 Estimando os coeficientes do modelo de regressatildeo
Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1
do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A
partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar
os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que
maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima
verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem
maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra
Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =
π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado
em xi
As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de
verossimilhanccedila eacute
L(β) =nprod
i=1
π(xi)yi [1 minus π(xi)]1minusyi (25)
Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo
log-verossimilhanccedila
l(β) = ln[L(β)] =nsum
i=1
[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)
Capiacutetulo 2 Regressatildeo Logiacutestica 21
O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-
metros (β0 β1)
part ln[L(β)]partβ0
=nsum
i=1
[yi minus π(xi)] (27)
part ln[L(β)]partβ1
=nsum
i=1
xi[yi minus π(xi)] (28)
Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees
(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de
variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa
que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a
sua variaacutevel independente xi
As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar
mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado
que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um
procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente
novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores
ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos
repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila
Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada
por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente
complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos
como SPSS1 SAS2 entre outros
24 Regressatildeo Logiacutestica Muacuteltipla
A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que
a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute
mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a
variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente
eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o
peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo
logiacutestica muacuteltipla
Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa
semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt
Capiacutetulo 2 Regressatildeo Logiacutestica 22
apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo
com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para
o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla
como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria
Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos
considerar este conjunto denotado por X = (x1 x2 xt)
Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para
este conjunto de variaacuteveis eacute definida como
g(x) = β0 + β1x1 + β2x2 + + βtxt (29)
Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo
ln
(
p
1 minus p
)
= β0 + β1x1 + β2x2 + + βtxt (210)
Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-
ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica
muacuteltipla para a probabilidade estimada p
p =eβ0+β1x1+β2x2++βtxt
1 + eβ0+β1x1+β2x2++βtxt
=1
1 + eminus(β0+β1x1+β2x2++βtxt)(211)
A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que
π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis
independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila
eacute obtida como
l(β) =nsum
i=1
[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)
As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas
equaccedilotildees 212 e 213
partl(β)partβ0
=nsum
i=1
yi minusnsum
i=1
πi = 0 (213)
partl(β)partβj
=nsum
i=1
xijyi minusnsum
i=1
xijπi = 0 para j isin 1 t (214)
Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)
πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila
Capiacutetulo 2 Regressatildeo Logiacutestica 23
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das
variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica
para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas
com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes
mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2
de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)
Veremos a seguir cada um deles
251 Teste da Razatildeo de Verossimilhanccedila
Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado
Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila
Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a
β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de
(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo
de verossimilhanccedila eacute expressa da seguinte forma
D = minus2 ln
[
verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado
]
(215)
D = minus2nsum
i=1
[
yi ln
(
πi
yi
)
+ (1 minus yi) ln
(
1 minus πi
1 minus yi
)]
(216)
O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado
corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D
tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o
ajuste do modelo
Queremos testar as hipoacuteteses
H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0
Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados
a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese
alternativa H1
Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de
D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela
inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de
G = D
(
modelo sem a variaacutevelmodelo com a variaacutevel
)
(217)
Capiacutetulo 2 Regressatildeo Logiacutestica 24
Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-
tiva para o modelo
252 Teste de Wald
O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da
significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-
tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada
variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel
dependente
Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-
los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do
objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou
no grupo da natildeo ocorrecircncia do evento (Y = 0)
O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de
um coeficiente e a estimativa do seu erro padratildeo
Wj =βj
var(βj)(218)
Fonte (BATISTA 2015)
Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA
2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos
ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo
quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de
Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado
253 Pseudo R2 de Cox e Snell
A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de
um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo
logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo
linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica
onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato
de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa
similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2
Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive
citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor
Capiacutetulo 2 Regressatildeo Logiacutestica 25
em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a
regressatildeo linear
Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um
dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na
equaccedilatildeo 217
R2 = 1 minus
(
L(β)0
L(β)M
)
2n (219)
Fonte (BATISTA 2015)
Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para
um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A
racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que
depende da probabilidade assumida pelos modelos com e sem preditores
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell
Fonte FIGUEIRA (2006)
O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute
menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente
De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-
dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No
exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40
Este mecanismo pode ser usado para comparar o desempenho de modelos concor-
rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais
elevado
26 Consideraccedilotildees Finais
Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de
dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente
dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de
Capiacutetulo 2 Regressatildeo Logiacutestica 26
variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta
teacutecnica
O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo
de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo
entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam
nos coeficientes que compotildeem o modelo
Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se
que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de
avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos
com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da
regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo
27
3 Aplicaccedilotildees de Regressatildeo Logiacutestica
Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela
primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras
aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias
Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica
ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou
o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este
trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos
envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede
Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de
regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer
e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo
para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria
administraccedilatildeo educaccedilatildeo ambiental e outros
Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de
regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de
creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente
31 Gestatildeo de creacutedito
Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute
muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu
reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou
pagamentos afirma Batista (2015)
Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou
retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de
creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado
atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade
destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante
miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e
concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo
estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento
em relaccedilatildeo agrave pontualidade e regularidade dos mesmos
A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando
no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28
eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)
311 Risco de creacutedito
No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma
transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras
lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito
O simples ato de emprestar uma quantia ou algum item a alguem envolve a
possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza
que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo
entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do
devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso
A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa
gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de
insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)
Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do
creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada
empresa
312 Regressatildeo logiacutestica para anaacutelise de creacutedito
Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de
modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes
para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo
com Gouvecirca Gonccedilalves e Mantovani (2013)
Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-
ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da
instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos
Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de
decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar
ganhos financeiros para a instituiccedilatildeo
A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por
exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade
e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees
qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de
pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam
classificar um perfil de adimplecircncia ou inadimplecircncia
Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29
passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos
90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real
Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit
scoring (CROOK EDELMAN THOMAS 2007)
A seguir veremos os passos para se construir um modelo de credit scoring utilizando
a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)
1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com
base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade
desta base de dados para resultar em um modelo de sucesso
2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da
variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem
variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se
aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente
bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo
devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica
3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute
sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente
neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes
devido agrave diferenccedila de tamanho
4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios
estatiacutesticos cada variaacutevel a ser utilizada no modelo
5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e
das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica
a fim de obter o modelo de regressatildeo
Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado
como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel
dependente binaacuteria Y pode assumir os valores
Y =
1 bom cliente
0 mau cliente
A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes
mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica
de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo
logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30
probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um
mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de
um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03
Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis
independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria
ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das
parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras
Destaca-se portanto que cada estudo oferece um resultado particular pois depende do
que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e
da poliacutetica de cada instituiccedilatildeo
Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito
pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia
aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a
cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado
obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e
consequentemente a perda do creacutedito
313 Aplicaccedilatildeo Exemplo
A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um
modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os
dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso
e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no
municiacutepio de Viccedilosa-MG
De acordo com os referidos autores a base amostral deste estudo foi composta
pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes
legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia
das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos
atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema
fornecido pela agecircncia bancaacuteria em estudo
A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos
clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que
tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise
de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de
relacionamento com o banco a renda o limite do cheque especial o estado civil e a
escolaridade
Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2
divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31
clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino
meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para
poacutes-graduccedilatildeo ou acima disto
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo
Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336
Fonte Adaptado de Ferreira Celso e Neto (2012)
Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos
atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na
Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados
Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento
de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste
cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1
representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na
equaccedilatildeo 31
p =1
1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)
Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e
Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que
clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores
observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e
maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo
agrave inadimplecircncia
32 Anaacutelise ambiental
O homem tem usado e modificado o solo haacute milhares de anos a fim de seu
proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura
urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender
a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32
Fatores como o crescimento populacional e a alta demanda por alimentos e outros
recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas
de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma
das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos
diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma
Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do
homem
Figura 5 ndash Componentes da mudanccedila ambiental global
Fonte VALENCIA (2008)
Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de
km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto
isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e
Foley (1999 apud VALENCIA 2008)
Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza
O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos
naturais dele para a realizaccedilatildeo das mesmas
A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas
do uso do solo
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33
bull Cobertura de solo
A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas
bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo
Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros
bull Uso do solo
O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo
Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem
do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso
do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas
executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo
com FAO (1998 apud VALENCIA 2008)
Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes
usos de solo podem ser realizados em uma mesma cobertura de solo assim como
diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como
mostrado na Tabela 2
Tabela 2 ndash Uso e Cobertura do solo
Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte
Fonte VALENCIA (2008)
bull Mudanccedilas do uso do solo
O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as
mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais
simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou
reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do
solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do
solo pode mudar mesmo se mantendo inalterado seu uso
Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas
de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do
solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente
relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers
(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34
uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras
agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade
a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades
humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes
no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os
dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por
sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra
321 Regressatildeo logiacutestica na anaacutelise ambiental
Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um
conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em
condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo
Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se
como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que
mais contribuem para a ocorrecircncia destas mudanccedilas
O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para
avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma
determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y
denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem
uso agriacutecola
Y =
1 aacutereas com uso agriacutecola
0 aacutereas sem uso agriacutecola
A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre
estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel
tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso
agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das
variaacuteveis independentes a serem consideradas na anaacutelise
A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem
de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados
ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por
exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute
encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes
Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)
que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo
meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35
devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites
florestais entre outros
A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma
aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis
independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo
(natildeo agriacutecola para agriacutecola)
322 Aplicaccedilatildeo Exemplo
O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia
Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo
de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este
estudo foi realizado por Mendes e Vega (2011)
Para a base amostral deste estudo o autor considerou imagens da BAP correspon-
dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a
gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou
aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-
pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a
transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os
pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000
Fonte Mendes e Vega (2011)
Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36
agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto
X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram
incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa
significacircncia para o modelo
A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico
com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de
regressatildeo logiacutestica pode ser observado na Figura 7
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico
Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia
anualTMA oC
Balanccedilo hiacutedricoclimaacutetico meacutedio anual
BHC mmano
Distacircncias para assedes urbanas de
municiacutepios brasileirosinseridos na bacia
D_URBMuacuteltiplos de
graus
Cotas topograacuteficas nabacia pelo lado
brasileiroTOPO m
Cotas topograacuteficasreclassificadas (le 150
m ge 150 m)TOPO_REC 1-2
Distacircncias paraestradas principais(pavimentadas e
federais) brasileirasinseridas na bacia
D_ESTRADAMuacuteltiplos de
graus
Distacircncias para asferrovias brasileirasinseridas na bacia
D_FERROMuacuteltiplos de
graus
Fonte Adaptado de Mendes e Vega (2011)
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados
Fonte Mendes e Vega (2011)
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37
Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute
categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-
ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em
aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e
facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-
mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento
estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas
33 Oacutebito Neonatal
O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias
incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os
sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes
Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias
incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de
neomorto
A mortalidade infantil pode ser considerada um dos melhores indicadores da
qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo
Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo
formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia
ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)
Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130
milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no
periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA
variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de
vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia
Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa
de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et
al 2005)
No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas
apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo
dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo
com as taxas de mortalidade poacutes-neonatal
Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal
teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que
possibilitem identificar os fatores de risco para o oacutebito neonatal
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal
Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-
geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo
consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do
que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos
do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et
al 2011)
A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar
a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer
niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias
separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo
Goldstein (2003)
Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito
neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada
A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em
crianccedilas com menos de 28 dias de vida
Y =
1 ocorrecircncia do oacutebito neonatal
0 natildeo ocorrecircncia do oacutebito neonatal
Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas
satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas
em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar
no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)
tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de
pessoas que moram no mesmo domiciacutelio entre outros
O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil
neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute
importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do
oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de
risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta
a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados
332 Aplicaccedilatildeo Exemplo
Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a
mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos
os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39
De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na
cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de
dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar
os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste
periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos
1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros
A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a
ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo
relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos
de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de
consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e
abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel
dependente foram consideradas estatisticamente significantes
Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-
nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo
varia de 0 a 10 e quanto mais proacuteximo de 10 melhor
Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves
dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4
informa o OR de quatro das variaacuteveis independentes inclusas neste estudo
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo
Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076
Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)
O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo
entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo
Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das
variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos
Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances
iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro
grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo
Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a
variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura
do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40
agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo
(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito
em comparaccedilatildeo agraves crianccedilas a termo
As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de
unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo
de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por
exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave
oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6
Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o
sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator
preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito
34 Consideraccedilotildees Finais
Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido
em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de
creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes
trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser
estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e
um estudo de caso realizado utilizando esta teacutecnica
A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser
usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo
anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo
gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre
o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois
objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees
finais limitaccedilotildees e trabalhos futuros
41
4 Conclusatildeo
O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de
regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de
informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que
ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem
analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que
assumem os valores da variaacutevel dependente
No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo
de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a
muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo
da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo
logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald
satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo
R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado
No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo
logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado
o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso
da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os
resultados obtidos
A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado
neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o
desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente
utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que
atuam com concessatildeo de creacutedito a seus clientes
O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e
o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados
nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo
de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas
Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro
meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja
indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal
caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador
caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo
linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua
A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo
Capiacutetulo 4 Conclusatildeo 42
logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta
de anaacutelise de dados de resposta categoacuterica
Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras
no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi
dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem
dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo
exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar
a regressatildeo logiacutestica com base nesses conceitos
Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo
logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel
eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo
epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios
de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada
um destes grupos entre outras possibilidades
43
Referecircncias
AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12
BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo
de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27
BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel
e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16
BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta
Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27
CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23
CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28
COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27
CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23
CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29
FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31
FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33
GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38
GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp
Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29
Referecircncias 44
HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24
HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27
HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23
JENNINGS D E Judging inference adequacy in logistic regression Journal of the
American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24
KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37
LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33
MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev
Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40
MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27
MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35
MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de
PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20
POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16
RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32
RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de
Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14
TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27
Referecircncias 45
VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila
do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33
ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38
ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37
Lista de ilustraccedilotildees
Figura 1 ndash Graacutefico da funccedilatildeo logit(p) 17
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p) 18
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado 19
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell 25
Figura 5 ndash Componentes da mudanccedila ambiental global 32
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000 35
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados 36
Lista de tabelas
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo 31
Tabela 2 ndash Uso e Cobertura do solo 33
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico 36
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo 39
Lista de abreviaturas e siglas
BAP Bacia Hidrograacutefica do Alto Paraguai
OR Odds Ratio
Sumaacuterio
1 INTRODUCcedilAtildeO 12
11 Objetivos 13
111 Objetivos Especiacuteficos 13
12 Organizaccedilatildeo do Trabalho 13
2 REGRESSAtildeO LOGIacuteSTICA 14
21 Definiccedilatildeo 15
22 A Funccedilatildeo Logit 16
23 Regressatildeo Logiacutestica Binaacuteria 19
231 Estimando os coeficientes do modelo de regressatildeo 20
24 Regressatildeo Logiacutestica Muacuteltipla 21
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico 23
251 Teste da Razatildeo de Verossimilhanccedila 23
252 Teste de Wald 24
253 Pseudo R2 de Cox e Snell 24
26 Consideraccedilotildees Finais 25
3 APLICACcedilOtildeES DE REGRESSAtildeO LOGIacuteSTICA 27
31 Gestatildeo de creacutedito 27
311 Risco de creacutedito 28
312 Regressatildeo logiacutestica para anaacutelise de creacutedito 28
313 Aplicaccedilatildeo Exemplo 30
32 Anaacutelise ambiental 31
321 Regressatildeo logiacutestica na anaacutelise ambiental 34
322 Aplicaccedilatildeo Exemplo 35
33 Oacutebito Neonatal 37
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal 38
332 Aplicaccedilatildeo Exemplo 38
34 Consideraccedilotildees Finais 40
4 CONCLUSAtildeO 41
REFEREcircNCIAS 43
12
1 Introduccedilatildeo
O presente trabalho apresenta a regressatildeo logiacutestica que consiste em uma teacutecnica
de mineraccedilatildeo de dados A mineraccedilatildeo de dados eacute uma ferramenta de apoio para tomada
de decisatildeo baseada em dados computacionais dos quais pretende-se extrair informaccedilotildees
relevantes de uma grande base de dados de forma a buscar vantagens competitivas ou
elaboraccedilatildeo de estrateacutegia
Estes conjuntos de grandes volumes de dados representam um custo tanto de
armazenamento quanto de processamento portanto eacute possiacutevel afirmar que a ideia de
adquirir conhecimento automaticamente destes grandes volumes atraveacutes da mineraccedilatildeo de
dados eacute altamente beneacutefico
Este processo pode empregar algoritmos de inteligecircncia artificial anaacutelise estatiacutestica
recuperaccedilatildeo de informaccedilatildeo reconhecimento de padrotildees e outros Segundo Hosmer e
Lemeshow (2000) meacutetodos de regressatildeo tem se tornado um componente integral para
qualquer anaacutelise de dados interessada em descrever a relaccedilatildeo entre uma variaacutevel resposta
(dependente) e uma ou mais variaacuteveis explicativas (independentes)
A principal diferenccedila da regressatildeo logiacutestica para a regressatildeo linear eacute que a variaacutevel
dependente na regressatildeo logiacutestica eacute categoacuterica e de acordo com Agresti (2002) o modelo
de regressatildeo logiacutestica eacute o modelo mais importante para dados de resposta categoacuterica
Aleacutem da variaacutevel dependente ser categoacuterica ela eacute frequentemente binaacuteria (dicotocirc-
mica) assumindo portanto dois valores que satildeo normalmente tratados como ldquosucessordquo
ou ldquofracassordquo Estes dois valores representam um evento que depende do estudo de caso
podendo ser por exemplo ou a concessatildeo ou a natildeo concessatildeo de creacutedito na aacuterea financeira
ou a presenccedila ou a natildeo presenccedila de uma doenccedila nos estudos epidemioloacutegicos ou a compra
ou a natildeo compra de um determinado produto na aacuterea de marketing entre outras diversas
possibilidades
Aplicaccedilotildees de anaacutelise de creacutedito por exemplo podem utilizar a regressatildeo logiacutestica
para calcular a probabilidade de um indiviacuteduo ser merecedor da concessatildeo de creacutedito
Informaccedilotildees pessoais como salaacuterio emprego tipo de moradia satildeo exemplos de possiacuteveis
variaacuteveis que podem ser levadas em consideraccedilatildeo Isto permite natildeo apenas a estimaccedilatildeo
dessa probabilidade mas tambeacutem como traccedilar o perfil de um bom ou mau pagador
Haacute diversas teacutecnicas de mineraccedilatildeo de dados cada uma com suas particularidades
a escolha da tarefa a ser utilizada eacute um importante passo para a obtenccedilatildeo de resultados
satisfatoacuterios dentro de um determinado estudo isto soacute eacute possiacutevel com a compreensatildeo da
mesma e de sua capacidade
Capiacutetulo 1 Introduccedilatildeo 13
Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como
eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de
meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes
domiacutenios nos quais esta teacutecnica pode ser aplicada
11 Objetivos
O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como
ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio
de exemplos de aplicaccedilotildees
111 Objetivos Especiacuteficos
Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos
bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos
bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica
bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental
e epidemioloacutegica apontando seus resultados
12 Organizaccedilatildeo do Trabalho
O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2
apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica
a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo
O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito
neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas
aacutereas
Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do
que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado
e as consideraccedilotildees finais
14
2 Regressatildeo Logiacutestica
A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis
em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para
agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam
de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)
Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste
em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado
de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos
preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis
independentes ou explicativas
A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel
dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas
que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel
dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo
1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja
indicando dois possiacuteveis valores ou categorias
A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo
fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica
eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as
variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas
Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias
da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de
determinado evento assim como a influecircncia de cada variaacutevel independente no evento
estudado
Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-
zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais
diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de
voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de
outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados
categoacutericos
Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica
binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico
e quais os testes que avaliam a significatildencia de um modelo estimado
Capiacutetulo 2 Regressatildeo Logiacutestica 15
21 Definiccedilatildeo
A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir
a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores
tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais
variaacuteveis independentes contiacutenuas eou binaacuterias
Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade
de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria
Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio
do sono potencialmente grave em que a pessoa para de respirar por alguns segundos
diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio
mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para
esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele
tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a
ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As
variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica
propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa
prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade
desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo
logiacutestica
O modelo de regressatildeo logiacutestica permite
bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis
independentes que podem ser categoacutericas ou contiacutenuas
Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do
sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos
ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado
seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor
seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de
ter apneia do sono
bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada
aleatoriamente contra a probabilidade do evento natildeo ocorrer
Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia
A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de
um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp
1 minus pque
eacute chamada de chance Assim temos0 750 25
= 3 isto significa que uma pessoa nessas
caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter
Capiacutetulo 2 Regressatildeo Logiacutestica 16
bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria
Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel
peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel
idade natildeo contribui tanto para a eficaacutecia do mesmo
bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma
categoria determinada
A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos
ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio
A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes
casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade
desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da
distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)
Y =
1 se ocorrer sucesso
0 se ocorrerfracasso
A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p
Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma
combinaccedilatildeo linear de variaacuteveis independentes
22 A Funccedilatildeo Logit
Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue
a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave
distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na
regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas
de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma
combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p
Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio
uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar
qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1
A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural
o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21
ln(odds) rArr ln
(
p
1 minus p
)
(21)
Fonte Adaptado de (POWERS XIE 1999)
Capiacutetulo 2 Regressatildeo Logiacutestica 17
Figura 1 ndash Graacutefico da funccedilatildeo logit(p)
Fonte Produzido pelo autor
Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo
vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica
comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =
indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro
desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito
uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste
modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou
inferior a 0
Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo
o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades
satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0
No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas
queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa
da funccedilatildeo logit A partir da equaccedilatildeo(21) temos
logitminus1(α) =1
1 + eminusα=
eα
1 + eα(22)
Adaptado de (MESQUITA 2014)
Capiacutetulo 2 Regressatildeo Logiacutestica 18
α = combinaccedilatildeo linear
No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus
coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y
ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)
Fonte Produzido pelo autor
Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas
90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao
inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y
A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma
parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila
eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x
causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de
mudanccedila de estado da variaacutevel y em funccedilatildeo de x
Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo
entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos
que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento
aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem
sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da
inversa do logit na Figura 2
Capiacutetulo 2 Regressatildeo Logiacutestica 19
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado
Fontelthttpsgooglnwec4Qgt
23 Regressatildeo Logiacutestica Binaacuteria
A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica
em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e
tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens
de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute
dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E
neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por
exemplo
Digamos entatildeo que
g(x) = β0 + β1x1 (23)
Fonte (FIGUEIRA 2006)
seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes
e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada
Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)
ln
(
p
1 minus p
)
= β0 + β1x1
Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p
Pra isso utiliza-se o antilogaritmo
Capiacutetulo 2 Regressatildeo Logiacutestica 20
p
1 minus p= eβ0+β1
Seguindo com o procedimento para isolar p obtemos
p =eβ0+β1x1
1 + eβ0+β1x1
=1
1 + eminus(β0+β1x1)(24)
Fonte Adaptado de (MESQUITA 2014)
A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a
funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade
estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta
equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima
verossimilhanccedila conforme explicado na subseccedilatildeo seguinte
231 Estimando os coeficientes do modelo de regressatildeo
Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1
do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A
partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar
os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que
maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima
verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem
maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra
Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =
π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado
em xi
As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de
verossimilhanccedila eacute
L(β) =nprod
i=1
π(xi)yi [1 minus π(xi)]1minusyi (25)
Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo
log-verossimilhanccedila
l(β) = ln[L(β)] =nsum
i=1
[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)
Capiacutetulo 2 Regressatildeo Logiacutestica 21
O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-
metros (β0 β1)
part ln[L(β)]partβ0
=nsum
i=1
[yi minus π(xi)] (27)
part ln[L(β)]partβ1
=nsum
i=1
xi[yi minus π(xi)] (28)
Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees
(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de
variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa
que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a
sua variaacutevel independente xi
As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar
mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado
que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um
procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente
novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores
ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos
repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila
Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada
por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente
complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos
como SPSS1 SAS2 entre outros
24 Regressatildeo Logiacutestica Muacuteltipla
A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que
a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute
mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a
variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente
eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o
peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo
logiacutestica muacuteltipla
Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa
semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt
Capiacutetulo 2 Regressatildeo Logiacutestica 22
apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo
com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para
o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla
como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria
Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos
considerar este conjunto denotado por X = (x1 x2 xt)
Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para
este conjunto de variaacuteveis eacute definida como
g(x) = β0 + β1x1 + β2x2 + + βtxt (29)
Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo
ln
(
p
1 minus p
)
= β0 + β1x1 + β2x2 + + βtxt (210)
Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-
ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica
muacuteltipla para a probabilidade estimada p
p =eβ0+β1x1+β2x2++βtxt
1 + eβ0+β1x1+β2x2++βtxt
=1
1 + eminus(β0+β1x1+β2x2++βtxt)(211)
A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que
π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis
independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila
eacute obtida como
l(β) =nsum
i=1
[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)
As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas
equaccedilotildees 212 e 213
partl(β)partβ0
=nsum
i=1
yi minusnsum
i=1
πi = 0 (213)
partl(β)partβj
=nsum
i=1
xijyi minusnsum
i=1
xijπi = 0 para j isin 1 t (214)
Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)
πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila
Capiacutetulo 2 Regressatildeo Logiacutestica 23
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das
variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica
para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas
com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes
mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2
de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)
Veremos a seguir cada um deles
251 Teste da Razatildeo de Verossimilhanccedila
Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado
Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila
Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a
β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de
(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo
de verossimilhanccedila eacute expressa da seguinte forma
D = minus2 ln
[
verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado
]
(215)
D = minus2nsum
i=1
[
yi ln
(
πi
yi
)
+ (1 minus yi) ln
(
1 minus πi
1 minus yi
)]
(216)
O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado
corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D
tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o
ajuste do modelo
Queremos testar as hipoacuteteses
H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0
Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados
a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese
alternativa H1
Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de
D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela
inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de
G = D
(
modelo sem a variaacutevelmodelo com a variaacutevel
)
(217)
Capiacutetulo 2 Regressatildeo Logiacutestica 24
Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-
tiva para o modelo
252 Teste de Wald
O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da
significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-
tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada
variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel
dependente
Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-
los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do
objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou
no grupo da natildeo ocorrecircncia do evento (Y = 0)
O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de
um coeficiente e a estimativa do seu erro padratildeo
Wj =βj
var(βj)(218)
Fonte (BATISTA 2015)
Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA
2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos
ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo
quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de
Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado
253 Pseudo R2 de Cox e Snell
A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de
um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo
logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo
linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica
onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato
de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa
similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2
Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive
citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor
Capiacutetulo 2 Regressatildeo Logiacutestica 25
em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a
regressatildeo linear
Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um
dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na
equaccedilatildeo 217
R2 = 1 minus
(
L(β)0
L(β)M
)
2n (219)
Fonte (BATISTA 2015)
Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para
um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A
racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que
depende da probabilidade assumida pelos modelos com e sem preditores
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell
Fonte FIGUEIRA (2006)
O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute
menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente
De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-
dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No
exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40
Este mecanismo pode ser usado para comparar o desempenho de modelos concor-
rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais
elevado
26 Consideraccedilotildees Finais
Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de
dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente
dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de
Capiacutetulo 2 Regressatildeo Logiacutestica 26
variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta
teacutecnica
O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo
de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo
entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam
nos coeficientes que compotildeem o modelo
Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se
que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de
avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos
com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da
regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo
27
3 Aplicaccedilotildees de Regressatildeo Logiacutestica
Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela
primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras
aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias
Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica
ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou
o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este
trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos
envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede
Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de
regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer
e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo
para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria
administraccedilatildeo educaccedilatildeo ambiental e outros
Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de
regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de
creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente
31 Gestatildeo de creacutedito
Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute
muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu
reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou
pagamentos afirma Batista (2015)
Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou
retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de
creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado
atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade
destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante
miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e
concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo
estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento
em relaccedilatildeo agrave pontualidade e regularidade dos mesmos
A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando
no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28
eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)
311 Risco de creacutedito
No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma
transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras
lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito
O simples ato de emprestar uma quantia ou algum item a alguem envolve a
possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza
que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo
entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do
devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso
A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa
gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de
insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)
Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do
creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada
empresa
312 Regressatildeo logiacutestica para anaacutelise de creacutedito
Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de
modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes
para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo
com Gouvecirca Gonccedilalves e Mantovani (2013)
Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-
ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da
instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos
Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de
decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar
ganhos financeiros para a instituiccedilatildeo
A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por
exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade
e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees
qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de
pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam
classificar um perfil de adimplecircncia ou inadimplecircncia
Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29
passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos
90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real
Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit
scoring (CROOK EDELMAN THOMAS 2007)
A seguir veremos os passos para se construir um modelo de credit scoring utilizando
a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)
1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com
base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade
desta base de dados para resultar em um modelo de sucesso
2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da
variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem
variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se
aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente
bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo
devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica
3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute
sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente
neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes
devido agrave diferenccedila de tamanho
4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios
estatiacutesticos cada variaacutevel a ser utilizada no modelo
5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e
das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica
a fim de obter o modelo de regressatildeo
Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado
como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel
dependente binaacuteria Y pode assumir os valores
Y =
1 bom cliente
0 mau cliente
A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes
mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica
de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo
logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30
probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um
mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de
um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03
Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis
independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria
ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das
parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras
Destaca-se portanto que cada estudo oferece um resultado particular pois depende do
que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e
da poliacutetica de cada instituiccedilatildeo
Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito
pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia
aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a
cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado
obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e
consequentemente a perda do creacutedito
313 Aplicaccedilatildeo Exemplo
A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um
modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os
dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso
e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no
municiacutepio de Viccedilosa-MG
De acordo com os referidos autores a base amostral deste estudo foi composta
pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes
legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia
das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos
atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema
fornecido pela agecircncia bancaacuteria em estudo
A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos
clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que
tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise
de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de
relacionamento com o banco a renda o limite do cheque especial o estado civil e a
escolaridade
Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2
divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31
clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino
meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para
poacutes-graduccedilatildeo ou acima disto
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo
Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336
Fonte Adaptado de Ferreira Celso e Neto (2012)
Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos
atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na
Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados
Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento
de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste
cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1
representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na
equaccedilatildeo 31
p =1
1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)
Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e
Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que
clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores
observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e
maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo
agrave inadimplecircncia
32 Anaacutelise ambiental
O homem tem usado e modificado o solo haacute milhares de anos a fim de seu
proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura
urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender
a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32
Fatores como o crescimento populacional e a alta demanda por alimentos e outros
recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas
de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma
das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos
diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma
Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do
homem
Figura 5 ndash Componentes da mudanccedila ambiental global
Fonte VALENCIA (2008)
Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de
km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto
isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e
Foley (1999 apud VALENCIA 2008)
Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza
O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos
naturais dele para a realizaccedilatildeo das mesmas
A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas
do uso do solo
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33
bull Cobertura de solo
A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas
bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo
Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros
bull Uso do solo
O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo
Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem
do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso
do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas
executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo
com FAO (1998 apud VALENCIA 2008)
Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes
usos de solo podem ser realizados em uma mesma cobertura de solo assim como
diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como
mostrado na Tabela 2
Tabela 2 ndash Uso e Cobertura do solo
Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte
Fonte VALENCIA (2008)
bull Mudanccedilas do uso do solo
O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as
mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais
simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou
reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do
solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do
solo pode mudar mesmo se mantendo inalterado seu uso
Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas
de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do
solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente
relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers
(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34
uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras
agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade
a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades
humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes
no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os
dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por
sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra
321 Regressatildeo logiacutestica na anaacutelise ambiental
Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um
conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em
condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo
Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se
como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que
mais contribuem para a ocorrecircncia destas mudanccedilas
O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para
avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma
determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y
denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem
uso agriacutecola
Y =
1 aacutereas com uso agriacutecola
0 aacutereas sem uso agriacutecola
A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre
estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel
tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso
agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das
variaacuteveis independentes a serem consideradas na anaacutelise
A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem
de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados
ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por
exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute
encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes
Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)
que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo
meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35
devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites
florestais entre outros
A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma
aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis
independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo
(natildeo agriacutecola para agriacutecola)
322 Aplicaccedilatildeo Exemplo
O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia
Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo
de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este
estudo foi realizado por Mendes e Vega (2011)
Para a base amostral deste estudo o autor considerou imagens da BAP correspon-
dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a
gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou
aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-
pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a
transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os
pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000
Fonte Mendes e Vega (2011)
Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36
agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto
X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram
incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa
significacircncia para o modelo
A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico
com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de
regressatildeo logiacutestica pode ser observado na Figura 7
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico
Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia
anualTMA oC
Balanccedilo hiacutedricoclimaacutetico meacutedio anual
BHC mmano
Distacircncias para assedes urbanas de
municiacutepios brasileirosinseridos na bacia
D_URBMuacuteltiplos de
graus
Cotas topograacuteficas nabacia pelo lado
brasileiroTOPO m
Cotas topograacuteficasreclassificadas (le 150
m ge 150 m)TOPO_REC 1-2
Distacircncias paraestradas principais(pavimentadas e
federais) brasileirasinseridas na bacia
D_ESTRADAMuacuteltiplos de
graus
Distacircncias para asferrovias brasileirasinseridas na bacia
D_FERROMuacuteltiplos de
graus
Fonte Adaptado de Mendes e Vega (2011)
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados
Fonte Mendes e Vega (2011)
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37
Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute
categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-
ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em
aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e
facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-
mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento
estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas
33 Oacutebito Neonatal
O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias
incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os
sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes
Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias
incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de
neomorto
A mortalidade infantil pode ser considerada um dos melhores indicadores da
qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo
Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo
formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia
ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)
Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130
milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no
periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA
variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de
vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia
Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa
de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et
al 2005)
No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas
apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo
dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo
com as taxas de mortalidade poacutes-neonatal
Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal
teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que
possibilitem identificar os fatores de risco para o oacutebito neonatal
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal
Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-
geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo
consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do
que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos
do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et
al 2011)
A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar
a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer
niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias
separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo
Goldstein (2003)
Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito
neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada
A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em
crianccedilas com menos de 28 dias de vida
Y =
1 ocorrecircncia do oacutebito neonatal
0 natildeo ocorrecircncia do oacutebito neonatal
Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas
satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas
em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar
no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)
tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de
pessoas que moram no mesmo domiciacutelio entre outros
O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil
neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute
importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do
oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de
risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta
a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados
332 Aplicaccedilatildeo Exemplo
Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a
mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos
os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39
De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na
cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de
dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar
os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste
periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos
1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros
A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a
ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo
relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos
de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de
consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e
abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel
dependente foram consideradas estatisticamente significantes
Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-
nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo
varia de 0 a 10 e quanto mais proacuteximo de 10 melhor
Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves
dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4
informa o OR de quatro das variaacuteveis independentes inclusas neste estudo
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo
Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076
Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)
O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo
entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo
Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das
variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos
Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances
iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro
grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo
Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a
variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura
do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40
agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo
(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito
em comparaccedilatildeo agraves crianccedilas a termo
As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de
unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo
de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por
exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave
oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6
Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o
sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator
preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito
34 Consideraccedilotildees Finais
Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido
em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de
creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes
trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser
estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e
um estudo de caso realizado utilizando esta teacutecnica
A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser
usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo
anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo
gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre
o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois
objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees
finais limitaccedilotildees e trabalhos futuros
41
4 Conclusatildeo
O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de
regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de
informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que
ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem
analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que
assumem os valores da variaacutevel dependente
No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo
de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a
muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo
da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo
logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald
satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo
R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado
No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo
logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado
o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso
da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os
resultados obtidos
A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado
neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o
desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente
utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que
atuam com concessatildeo de creacutedito a seus clientes
O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e
o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados
nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo
de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas
Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro
meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja
indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal
caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador
caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo
linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua
A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo
Capiacutetulo 4 Conclusatildeo 42
logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta
de anaacutelise de dados de resposta categoacuterica
Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras
no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi
dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem
dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo
exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar
a regressatildeo logiacutestica com base nesses conceitos
Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo
logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel
eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo
epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios
de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada
um destes grupos entre outras possibilidades
43
Referecircncias
AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12
BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo
de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27
BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel
e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16
BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta
Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27
CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23
CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28
COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27
CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23
CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29
FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31
FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33
GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38
GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp
Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29
Referecircncias 44
HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24
HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27
HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23
JENNINGS D E Judging inference adequacy in logistic regression Journal of the
American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24
KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37
LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33
MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev
Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40
MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27
MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35
MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de
PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20
POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16
RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32
RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de
Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14
TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27
Referecircncias 45
VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila
do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33
ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38
ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37
Lista de tabelas
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo 31
Tabela 2 ndash Uso e Cobertura do solo 33
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico 36
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo 39
Lista de abreviaturas e siglas
BAP Bacia Hidrograacutefica do Alto Paraguai
OR Odds Ratio
Sumaacuterio
1 INTRODUCcedilAtildeO 12
11 Objetivos 13
111 Objetivos Especiacuteficos 13
12 Organizaccedilatildeo do Trabalho 13
2 REGRESSAtildeO LOGIacuteSTICA 14
21 Definiccedilatildeo 15
22 A Funccedilatildeo Logit 16
23 Regressatildeo Logiacutestica Binaacuteria 19
231 Estimando os coeficientes do modelo de regressatildeo 20
24 Regressatildeo Logiacutestica Muacuteltipla 21
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico 23
251 Teste da Razatildeo de Verossimilhanccedila 23
252 Teste de Wald 24
253 Pseudo R2 de Cox e Snell 24
26 Consideraccedilotildees Finais 25
3 APLICACcedilOtildeES DE REGRESSAtildeO LOGIacuteSTICA 27
31 Gestatildeo de creacutedito 27
311 Risco de creacutedito 28
312 Regressatildeo logiacutestica para anaacutelise de creacutedito 28
313 Aplicaccedilatildeo Exemplo 30
32 Anaacutelise ambiental 31
321 Regressatildeo logiacutestica na anaacutelise ambiental 34
322 Aplicaccedilatildeo Exemplo 35
33 Oacutebito Neonatal 37
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal 38
332 Aplicaccedilatildeo Exemplo 38
34 Consideraccedilotildees Finais 40
4 CONCLUSAtildeO 41
REFEREcircNCIAS 43
12
1 Introduccedilatildeo
O presente trabalho apresenta a regressatildeo logiacutestica que consiste em uma teacutecnica
de mineraccedilatildeo de dados A mineraccedilatildeo de dados eacute uma ferramenta de apoio para tomada
de decisatildeo baseada em dados computacionais dos quais pretende-se extrair informaccedilotildees
relevantes de uma grande base de dados de forma a buscar vantagens competitivas ou
elaboraccedilatildeo de estrateacutegia
Estes conjuntos de grandes volumes de dados representam um custo tanto de
armazenamento quanto de processamento portanto eacute possiacutevel afirmar que a ideia de
adquirir conhecimento automaticamente destes grandes volumes atraveacutes da mineraccedilatildeo de
dados eacute altamente beneacutefico
Este processo pode empregar algoritmos de inteligecircncia artificial anaacutelise estatiacutestica
recuperaccedilatildeo de informaccedilatildeo reconhecimento de padrotildees e outros Segundo Hosmer e
Lemeshow (2000) meacutetodos de regressatildeo tem se tornado um componente integral para
qualquer anaacutelise de dados interessada em descrever a relaccedilatildeo entre uma variaacutevel resposta
(dependente) e uma ou mais variaacuteveis explicativas (independentes)
A principal diferenccedila da regressatildeo logiacutestica para a regressatildeo linear eacute que a variaacutevel
dependente na regressatildeo logiacutestica eacute categoacuterica e de acordo com Agresti (2002) o modelo
de regressatildeo logiacutestica eacute o modelo mais importante para dados de resposta categoacuterica
Aleacutem da variaacutevel dependente ser categoacuterica ela eacute frequentemente binaacuteria (dicotocirc-
mica) assumindo portanto dois valores que satildeo normalmente tratados como ldquosucessordquo
ou ldquofracassordquo Estes dois valores representam um evento que depende do estudo de caso
podendo ser por exemplo ou a concessatildeo ou a natildeo concessatildeo de creacutedito na aacuterea financeira
ou a presenccedila ou a natildeo presenccedila de uma doenccedila nos estudos epidemioloacutegicos ou a compra
ou a natildeo compra de um determinado produto na aacuterea de marketing entre outras diversas
possibilidades
Aplicaccedilotildees de anaacutelise de creacutedito por exemplo podem utilizar a regressatildeo logiacutestica
para calcular a probabilidade de um indiviacuteduo ser merecedor da concessatildeo de creacutedito
Informaccedilotildees pessoais como salaacuterio emprego tipo de moradia satildeo exemplos de possiacuteveis
variaacuteveis que podem ser levadas em consideraccedilatildeo Isto permite natildeo apenas a estimaccedilatildeo
dessa probabilidade mas tambeacutem como traccedilar o perfil de um bom ou mau pagador
Haacute diversas teacutecnicas de mineraccedilatildeo de dados cada uma com suas particularidades
a escolha da tarefa a ser utilizada eacute um importante passo para a obtenccedilatildeo de resultados
satisfatoacuterios dentro de um determinado estudo isto soacute eacute possiacutevel com a compreensatildeo da
mesma e de sua capacidade
Capiacutetulo 1 Introduccedilatildeo 13
Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como
eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de
meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes
domiacutenios nos quais esta teacutecnica pode ser aplicada
11 Objetivos
O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como
ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio
de exemplos de aplicaccedilotildees
111 Objetivos Especiacuteficos
Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos
bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos
bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica
bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental
e epidemioloacutegica apontando seus resultados
12 Organizaccedilatildeo do Trabalho
O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2
apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica
a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo
O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito
neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas
aacutereas
Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do
que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado
e as consideraccedilotildees finais
14
2 Regressatildeo Logiacutestica
A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis
em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para
agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam
de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)
Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste
em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado
de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos
preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis
independentes ou explicativas
A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel
dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas
que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel
dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo
1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja
indicando dois possiacuteveis valores ou categorias
A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo
fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica
eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as
variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas
Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias
da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de
determinado evento assim como a influecircncia de cada variaacutevel independente no evento
estudado
Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-
zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais
diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de
voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de
outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados
categoacutericos
Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica
binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico
e quais os testes que avaliam a significatildencia de um modelo estimado
Capiacutetulo 2 Regressatildeo Logiacutestica 15
21 Definiccedilatildeo
A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir
a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores
tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais
variaacuteveis independentes contiacutenuas eou binaacuterias
Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade
de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria
Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio
do sono potencialmente grave em que a pessoa para de respirar por alguns segundos
diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio
mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para
esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele
tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a
ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As
variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica
propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa
prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade
desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo
logiacutestica
O modelo de regressatildeo logiacutestica permite
bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis
independentes que podem ser categoacutericas ou contiacutenuas
Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do
sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos
ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado
seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor
seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de
ter apneia do sono
bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada
aleatoriamente contra a probabilidade do evento natildeo ocorrer
Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia
A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de
um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp
1 minus pque
eacute chamada de chance Assim temos0 750 25
= 3 isto significa que uma pessoa nessas
caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter
Capiacutetulo 2 Regressatildeo Logiacutestica 16
bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria
Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel
peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel
idade natildeo contribui tanto para a eficaacutecia do mesmo
bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma
categoria determinada
A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos
ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio
A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes
casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade
desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da
distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)
Y =
1 se ocorrer sucesso
0 se ocorrerfracasso
A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p
Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma
combinaccedilatildeo linear de variaacuteveis independentes
22 A Funccedilatildeo Logit
Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue
a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave
distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na
regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas
de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma
combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p
Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio
uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar
qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1
A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural
o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21
ln(odds) rArr ln
(
p
1 minus p
)
(21)
Fonte Adaptado de (POWERS XIE 1999)
Capiacutetulo 2 Regressatildeo Logiacutestica 17
Figura 1 ndash Graacutefico da funccedilatildeo logit(p)
Fonte Produzido pelo autor
Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo
vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica
comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =
indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro
desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito
uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste
modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou
inferior a 0
Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo
o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades
satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0
No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas
queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa
da funccedilatildeo logit A partir da equaccedilatildeo(21) temos
logitminus1(α) =1
1 + eminusα=
eα
1 + eα(22)
Adaptado de (MESQUITA 2014)
Capiacutetulo 2 Regressatildeo Logiacutestica 18
α = combinaccedilatildeo linear
No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus
coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y
ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)
Fonte Produzido pelo autor
Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas
90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao
inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y
A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma
parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila
eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x
causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de
mudanccedila de estado da variaacutevel y em funccedilatildeo de x
Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo
entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos
que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento
aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem
sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da
inversa do logit na Figura 2
Capiacutetulo 2 Regressatildeo Logiacutestica 19
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado
Fontelthttpsgooglnwec4Qgt
23 Regressatildeo Logiacutestica Binaacuteria
A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica
em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e
tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens
de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute
dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E
neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por
exemplo
Digamos entatildeo que
g(x) = β0 + β1x1 (23)
Fonte (FIGUEIRA 2006)
seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes
e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada
Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)
ln
(
p
1 minus p
)
= β0 + β1x1
Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p
Pra isso utiliza-se o antilogaritmo
Capiacutetulo 2 Regressatildeo Logiacutestica 20
p
1 minus p= eβ0+β1
Seguindo com o procedimento para isolar p obtemos
p =eβ0+β1x1
1 + eβ0+β1x1
=1
1 + eminus(β0+β1x1)(24)
Fonte Adaptado de (MESQUITA 2014)
A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a
funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade
estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta
equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima
verossimilhanccedila conforme explicado na subseccedilatildeo seguinte
231 Estimando os coeficientes do modelo de regressatildeo
Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1
do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A
partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar
os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que
maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima
verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem
maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra
Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =
π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado
em xi
As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de
verossimilhanccedila eacute
L(β) =nprod
i=1
π(xi)yi [1 minus π(xi)]1minusyi (25)
Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo
log-verossimilhanccedila
l(β) = ln[L(β)] =nsum
i=1
[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)
Capiacutetulo 2 Regressatildeo Logiacutestica 21
O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-
metros (β0 β1)
part ln[L(β)]partβ0
=nsum
i=1
[yi minus π(xi)] (27)
part ln[L(β)]partβ1
=nsum
i=1
xi[yi minus π(xi)] (28)
Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees
(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de
variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa
que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a
sua variaacutevel independente xi
As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar
mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado
que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um
procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente
novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores
ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos
repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila
Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada
por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente
complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos
como SPSS1 SAS2 entre outros
24 Regressatildeo Logiacutestica Muacuteltipla
A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que
a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute
mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a
variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente
eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o
peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo
logiacutestica muacuteltipla
Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa
semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt
Capiacutetulo 2 Regressatildeo Logiacutestica 22
apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo
com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para
o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla
como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria
Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos
considerar este conjunto denotado por X = (x1 x2 xt)
Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para
este conjunto de variaacuteveis eacute definida como
g(x) = β0 + β1x1 + β2x2 + + βtxt (29)
Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo
ln
(
p
1 minus p
)
= β0 + β1x1 + β2x2 + + βtxt (210)
Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-
ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica
muacuteltipla para a probabilidade estimada p
p =eβ0+β1x1+β2x2++βtxt
1 + eβ0+β1x1+β2x2++βtxt
=1
1 + eminus(β0+β1x1+β2x2++βtxt)(211)
A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que
π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis
independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila
eacute obtida como
l(β) =nsum
i=1
[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)
As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas
equaccedilotildees 212 e 213
partl(β)partβ0
=nsum
i=1
yi minusnsum
i=1
πi = 0 (213)
partl(β)partβj
=nsum
i=1
xijyi minusnsum
i=1
xijπi = 0 para j isin 1 t (214)
Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)
πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila
Capiacutetulo 2 Regressatildeo Logiacutestica 23
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das
variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica
para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas
com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes
mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2
de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)
Veremos a seguir cada um deles
251 Teste da Razatildeo de Verossimilhanccedila
Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado
Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila
Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a
β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de
(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo
de verossimilhanccedila eacute expressa da seguinte forma
D = minus2 ln
[
verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado
]
(215)
D = minus2nsum
i=1
[
yi ln
(
πi
yi
)
+ (1 minus yi) ln
(
1 minus πi
1 minus yi
)]
(216)
O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado
corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D
tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o
ajuste do modelo
Queremos testar as hipoacuteteses
H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0
Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados
a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese
alternativa H1
Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de
D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela
inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de
G = D
(
modelo sem a variaacutevelmodelo com a variaacutevel
)
(217)
Capiacutetulo 2 Regressatildeo Logiacutestica 24
Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-
tiva para o modelo
252 Teste de Wald
O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da
significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-
tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada
variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel
dependente
Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-
los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do
objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou
no grupo da natildeo ocorrecircncia do evento (Y = 0)
O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de
um coeficiente e a estimativa do seu erro padratildeo
Wj =βj
var(βj)(218)
Fonte (BATISTA 2015)
Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA
2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos
ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo
quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de
Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado
253 Pseudo R2 de Cox e Snell
A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de
um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo
logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo
linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica
onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato
de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa
similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2
Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive
citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor
Capiacutetulo 2 Regressatildeo Logiacutestica 25
em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a
regressatildeo linear
Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um
dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na
equaccedilatildeo 217
R2 = 1 minus
(
L(β)0
L(β)M
)
2n (219)
Fonte (BATISTA 2015)
Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para
um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A
racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que
depende da probabilidade assumida pelos modelos com e sem preditores
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell
Fonte FIGUEIRA (2006)
O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute
menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente
De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-
dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No
exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40
Este mecanismo pode ser usado para comparar o desempenho de modelos concor-
rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais
elevado
26 Consideraccedilotildees Finais
Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de
dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente
dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de
Capiacutetulo 2 Regressatildeo Logiacutestica 26
variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta
teacutecnica
O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo
de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo
entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam
nos coeficientes que compotildeem o modelo
Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se
que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de
avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos
com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da
regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo
27
3 Aplicaccedilotildees de Regressatildeo Logiacutestica
Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela
primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras
aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias
Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica
ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou
o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este
trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos
envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede
Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de
regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer
e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo
para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria
administraccedilatildeo educaccedilatildeo ambiental e outros
Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de
regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de
creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente
31 Gestatildeo de creacutedito
Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute
muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu
reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou
pagamentos afirma Batista (2015)
Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou
retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de
creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado
atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade
destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante
miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e
concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo
estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento
em relaccedilatildeo agrave pontualidade e regularidade dos mesmos
A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando
no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28
eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)
311 Risco de creacutedito
No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma
transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras
lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito
O simples ato de emprestar uma quantia ou algum item a alguem envolve a
possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza
que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo
entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do
devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso
A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa
gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de
insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)
Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do
creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada
empresa
312 Regressatildeo logiacutestica para anaacutelise de creacutedito
Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de
modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes
para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo
com Gouvecirca Gonccedilalves e Mantovani (2013)
Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-
ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da
instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos
Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de
decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar
ganhos financeiros para a instituiccedilatildeo
A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por
exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade
e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees
qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de
pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam
classificar um perfil de adimplecircncia ou inadimplecircncia
Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29
passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos
90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real
Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit
scoring (CROOK EDELMAN THOMAS 2007)
A seguir veremos os passos para se construir um modelo de credit scoring utilizando
a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)
1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com
base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade
desta base de dados para resultar em um modelo de sucesso
2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da
variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem
variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se
aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente
bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo
devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica
3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute
sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente
neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes
devido agrave diferenccedila de tamanho
4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios
estatiacutesticos cada variaacutevel a ser utilizada no modelo
5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e
das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica
a fim de obter o modelo de regressatildeo
Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado
como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel
dependente binaacuteria Y pode assumir os valores
Y =
1 bom cliente
0 mau cliente
A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes
mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica
de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo
logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30
probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um
mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de
um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03
Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis
independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria
ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das
parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras
Destaca-se portanto que cada estudo oferece um resultado particular pois depende do
que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e
da poliacutetica de cada instituiccedilatildeo
Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito
pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia
aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a
cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado
obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e
consequentemente a perda do creacutedito
313 Aplicaccedilatildeo Exemplo
A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um
modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os
dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso
e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no
municiacutepio de Viccedilosa-MG
De acordo com os referidos autores a base amostral deste estudo foi composta
pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes
legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia
das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos
atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema
fornecido pela agecircncia bancaacuteria em estudo
A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos
clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que
tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise
de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de
relacionamento com o banco a renda o limite do cheque especial o estado civil e a
escolaridade
Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2
divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31
clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino
meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para
poacutes-graduccedilatildeo ou acima disto
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo
Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336
Fonte Adaptado de Ferreira Celso e Neto (2012)
Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos
atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na
Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados
Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento
de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste
cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1
representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na
equaccedilatildeo 31
p =1
1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)
Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e
Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que
clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores
observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e
maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo
agrave inadimplecircncia
32 Anaacutelise ambiental
O homem tem usado e modificado o solo haacute milhares de anos a fim de seu
proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura
urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender
a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32
Fatores como o crescimento populacional e a alta demanda por alimentos e outros
recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas
de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma
das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos
diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma
Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do
homem
Figura 5 ndash Componentes da mudanccedila ambiental global
Fonte VALENCIA (2008)
Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de
km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto
isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e
Foley (1999 apud VALENCIA 2008)
Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza
O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos
naturais dele para a realizaccedilatildeo das mesmas
A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas
do uso do solo
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33
bull Cobertura de solo
A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas
bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo
Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros
bull Uso do solo
O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo
Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem
do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso
do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas
executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo
com FAO (1998 apud VALENCIA 2008)
Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes
usos de solo podem ser realizados em uma mesma cobertura de solo assim como
diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como
mostrado na Tabela 2
Tabela 2 ndash Uso e Cobertura do solo
Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte
Fonte VALENCIA (2008)
bull Mudanccedilas do uso do solo
O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as
mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais
simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou
reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do
solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do
solo pode mudar mesmo se mantendo inalterado seu uso
Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas
de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do
solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente
relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers
(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34
uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras
agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade
a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades
humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes
no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os
dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por
sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra
321 Regressatildeo logiacutestica na anaacutelise ambiental
Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um
conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em
condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo
Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se
como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que
mais contribuem para a ocorrecircncia destas mudanccedilas
O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para
avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma
determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y
denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem
uso agriacutecola
Y =
1 aacutereas com uso agriacutecola
0 aacutereas sem uso agriacutecola
A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre
estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel
tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso
agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das
variaacuteveis independentes a serem consideradas na anaacutelise
A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem
de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados
ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por
exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute
encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes
Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)
que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo
meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35
devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites
florestais entre outros
A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma
aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis
independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo
(natildeo agriacutecola para agriacutecola)
322 Aplicaccedilatildeo Exemplo
O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia
Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo
de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este
estudo foi realizado por Mendes e Vega (2011)
Para a base amostral deste estudo o autor considerou imagens da BAP correspon-
dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a
gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou
aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-
pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a
transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os
pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000
Fonte Mendes e Vega (2011)
Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36
agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto
X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram
incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa
significacircncia para o modelo
A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico
com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de
regressatildeo logiacutestica pode ser observado na Figura 7
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico
Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia
anualTMA oC
Balanccedilo hiacutedricoclimaacutetico meacutedio anual
BHC mmano
Distacircncias para assedes urbanas de
municiacutepios brasileirosinseridos na bacia
D_URBMuacuteltiplos de
graus
Cotas topograacuteficas nabacia pelo lado
brasileiroTOPO m
Cotas topograacuteficasreclassificadas (le 150
m ge 150 m)TOPO_REC 1-2
Distacircncias paraestradas principais(pavimentadas e
federais) brasileirasinseridas na bacia
D_ESTRADAMuacuteltiplos de
graus
Distacircncias para asferrovias brasileirasinseridas na bacia
D_FERROMuacuteltiplos de
graus
Fonte Adaptado de Mendes e Vega (2011)
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados
Fonte Mendes e Vega (2011)
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37
Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute
categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-
ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em
aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e
facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-
mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento
estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas
33 Oacutebito Neonatal
O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias
incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os
sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes
Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias
incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de
neomorto
A mortalidade infantil pode ser considerada um dos melhores indicadores da
qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo
Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo
formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia
ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)
Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130
milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no
periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA
variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de
vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia
Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa
de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et
al 2005)
No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas
apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo
dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo
com as taxas de mortalidade poacutes-neonatal
Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal
teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que
possibilitem identificar os fatores de risco para o oacutebito neonatal
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal
Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-
geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo
consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do
que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos
do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et
al 2011)
A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar
a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer
niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias
separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo
Goldstein (2003)
Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito
neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada
A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em
crianccedilas com menos de 28 dias de vida
Y =
1 ocorrecircncia do oacutebito neonatal
0 natildeo ocorrecircncia do oacutebito neonatal
Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas
satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas
em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar
no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)
tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de
pessoas que moram no mesmo domiciacutelio entre outros
O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil
neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute
importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do
oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de
risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta
a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados
332 Aplicaccedilatildeo Exemplo
Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a
mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos
os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39
De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na
cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de
dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar
os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste
periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos
1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros
A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a
ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo
relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos
de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de
consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e
abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel
dependente foram consideradas estatisticamente significantes
Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-
nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo
varia de 0 a 10 e quanto mais proacuteximo de 10 melhor
Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves
dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4
informa o OR de quatro das variaacuteveis independentes inclusas neste estudo
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo
Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076
Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)
O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo
entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo
Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das
variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos
Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances
iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro
grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo
Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a
variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura
do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40
agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo
(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito
em comparaccedilatildeo agraves crianccedilas a termo
As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de
unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo
de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por
exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave
oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6
Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o
sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator
preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito
34 Consideraccedilotildees Finais
Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido
em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de
creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes
trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser
estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e
um estudo de caso realizado utilizando esta teacutecnica
A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser
usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo
anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo
gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre
o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois
objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees
finais limitaccedilotildees e trabalhos futuros
41
4 Conclusatildeo
O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de
regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de
informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que
ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem
analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que
assumem os valores da variaacutevel dependente
No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo
de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a
muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo
da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo
logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald
satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo
R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado
No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo
logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado
o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso
da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os
resultados obtidos
A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado
neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o
desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente
utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que
atuam com concessatildeo de creacutedito a seus clientes
O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e
o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados
nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo
de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas
Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro
meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja
indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal
caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador
caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo
linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua
A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo
Capiacutetulo 4 Conclusatildeo 42
logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta
de anaacutelise de dados de resposta categoacuterica
Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras
no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi
dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem
dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo
exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar
a regressatildeo logiacutestica com base nesses conceitos
Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo
logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel
eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo
epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios
de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada
um destes grupos entre outras possibilidades
43
Referecircncias
AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12
BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo
de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27
BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel
e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16
BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta
Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27
CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23
CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28
COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27
CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23
CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29
FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31
FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33
GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38
GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp
Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29
Referecircncias 44
HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24
HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27
HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23
JENNINGS D E Judging inference adequacy in logistic regression Journal of the
American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24
KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37
LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33
MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev
Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40
MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27
MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35
MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de
PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20
POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16
RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32
RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de
Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14
TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27
Referecircncias 45
VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila
do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33
ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38
ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37
Lista de abreviaturas e siglas
BAP Bacia Hidrograacutefica do Alto Paraguai
OR Odds Ratio
Sumaacuterio
1 INTRODUCcedilAtildeO 12
11 Objetivos 13
111 Objetivos Especiacuteficos 13
12 Organizaccedilatildeo do Trabalho 13
2 REGRESSAtildeO LOGIacuteSTICA 14
21 Definiccedilatildeo 15
22 A Funccedilatildeo Logit 16
23 Regressatildeo Logiacutestica Binaacuteria 19
231 Estimando os coeficientes do modelo de regressatildeo 20
24 Regressatildeo Logiacutestica Muacuteltipla 21
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico 23
251 Teste da Razatildeo de Verossimilhanccedila 23
252 Teste de Wald 24
253 Pseudo R2 de Cox e Snell 24
26 Consideraccedilotildees Finais 25
3 APLICACcedilOtildeES DE REGRESSAtildeO LOGIacuteSTICA 27
31 Gestatildeo de creacutedito 27
311 Risco de creacutedito 28
312 Regressatildeo logiacutestica para anaacutelise de creacutedito 28
313 Aplicaccedilatildeo Exemplo 30
32 Anaacutelise ambiental 31
321 Regressatildeo logiacutestica na anaacutelise ambiental 34
322 Aplicaccedilatildeo Exemplo 35
33 Oacutebito Neonatal 37
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal 38
332 Aplicaccedilatildeo Exemplo 38
34 Consideraccedilotildees Finais 40
4 CONCLUSAtildeO 41
REFEREcircNCIAS 43
12
1 Introduccedilatildeo
O presente trabalho apresenta a regressatildeo logiacutestica que consiste em uma teacutecnica
de mineraccedilatildeo de dados A mineraccedilatildeo de dados eacute uma ferramenta de apoio para tomada
de decisatildeo baseada em dados computacionais dos quais pretende-se extrair informaccedilotildees
relevantes de uma grande base de dados de forma a buscar vantagens competitivas ou
elaboraccedilatildeo de estrateacutegia
Estes conjuntos de grandes volumes de dados representam um custo tanto de
armazenamento quanto de processamento portanto eacute possiacutevel afirmar que a ideia de
adquirir conhecimento automaticamente destes grandes volumes atraveacutes da mineraccedilatildeo de
dados eacute altamente beneacutefico
Este processo pode empregar algoritmos de inteligecircncia artificial anaacutelise estatiacutestica
recuperaccedilatildeo de informaccedilatildeo reconhecimento de padrotildees e outros Segundo Hosmer e
Lemeshow (2000) meacutetodos de regressatildeo tem se tornado um componente integral para
qualquer anaacutelise de dados interessada em descrever a relaccedilatildeo entre uma variaacutevel resposta
(dependente) e uma ou mais variaacuteveis explicativas (independentes)
A principal diferenccedila da regressatildeo logiacutestica para a regressatildeo linear eacute que a variaacutevel
dependente na regressatildeo logiacutestica eacute categoacuterica e de acordo com Agresti (2002) o modelo
de regressatildeo logiacutestica eacute o modelo mais importante para dados de resposta categoacuterica
Aleacutem da variaacutevel dependente ser categoacuterica ela eacute frequentemente binaacuteria (dicotocirc-
mica) assumindo portanto dois valores que satildeo normalmente tratados como ldquosucessordquo
ou ldquofracassordquo Estes dois valores representam um evento que depende do estudo de caso
podendo ser por exemplo ou a concessatildeo ou a natildeo concessatildeo de creacutedito na aacuterea financeira
ou a presenccedila ou a natildeo presenccedila de uma doenccedila nos estudos epidemioloacutegicos ou a compra
ou a natildeo compra de um determinado produto na aacuterea de marketing entre outras diversas
possibilidades
Aplicaccedilotildees de anaacutelise de creacutedito por exemplo podem utilizar a regressatildeo logiacutestica
para calcular a probabilidade de um indiviacuteduo ser merecedor da concessatildeo de creacutedito
Informaccedilotildees pessoais como salaacuterio emprego tipo de moradia satildeo exemplos de possiacuteveis
variaacuteveis que podem ser levadas em consideraccedilatildeo Isto permite natildeo apenas a estimaccedilatildeo
dessa probabilidade mas tambeacutem como traccedilar o perfil de um bom ou mau pagador
Haacute diversas teacutecnicas de mineraccedilatildeo de dados cada uma com suas particularidades
a escolha da tarefa a ser utilizada eacute um importante passo para a obtenccedilatildeo de resultados
satisfatoacuterios dentro de um determinado estudo isto soacute eacute possiacutevel com a compreensatildeo da
mesma e de sua capacidade
Capiacutetulo 1 Introduccedilatildeo 13
Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como
eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de
meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes
domiacutenios nos quais esta teacutecnica pode ser aplicada
11 Objetivos
O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como
ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio
de exemplos de aplicaccedilotildees
111 Objetivos Especiacuteficos
Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos
bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos
bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica
bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental
e epidemioloacutegica apontando seus resultados
12 Organizaccedilatildeo do Trabalho
O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2
apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica
a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo
O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito
neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas
aacutereas
Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do
que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado
e as consideraccedilotildees finais
14
2 Regressatildeo Logiacutestica
A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis
em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para
agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam
de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)
Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste
em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado
de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos
preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis
independentes ou explicativas
A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel
dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas
que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel
dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo
1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja
indicando dois possiacuteveis valores ou categorias
A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo
fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica
eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as
variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas
Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias
da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de
determinado evento assim como a influecircncia de cada variaacutevel independente no evento
estudado
Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-
zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais
diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de
voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de
outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados
categoacutericos
Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica
binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico
e quais os testes que avaliam a significatildencia de um modelo estimado
Capiacutetulo 2 Regressatildeo Logiacutestica 15
21 Definiccedilatildeo
A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir
a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores
tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais
variaacuteveis independentes contiacutenuas eou binaacuterias
Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade
de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria
Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio
do sono potencialmente grave em que a pessoa para de respirar por alguns segundos
diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio
mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para
esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele
tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a
ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As
variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica
propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa
prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade
desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo
logiacutestica
O modelo de regressatildeo logiacutestica permite
bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis
independentes que podem ser categoacutericas ou contiacutenuas
Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do
sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos
ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado
seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor
seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de
ter apneia do sono
bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada
aleatoriamente contra a probabilidade do evento natildeo ocorrer
Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia
A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de
um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp
1 minus pque
eacute chamada de chance Assim temos0 750 25
= 3 isto significa que uma pessoa nessas
caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter
Capiacutetulo 2 Regressatildeo Logiacutestica 16
bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria
Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel
peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel
idade natildeo contribui tanto para a eficaacutecia do mesmo
bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma
categoria determinada
A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos
ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio
A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes
casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade
desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da
distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)
Y =
1 se ocorrer sucesso
0 se ocorrerfracasso
A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p
Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma
combinaccedilatildeo linear de variaacuteveis independentes
22 A Funccedilatildeo Logit
Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue
a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave
distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na
regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas
de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma
combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p
Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio
uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar
qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1
A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural
o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21
ln(odds) rArr ln
(
p
1 minus p
)
(21)
Fonte Adaptado de (POWERS XIE 1999)
Capiacutetulo 2 Regressatildeo Logiacutestica 17
Figura 1 ndash Graacutefico da funccedilatildeo logit(p)
Fonte Produzido pelo autor
Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo
vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica
comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =
indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro
desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito
uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste
modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou
inferior a 0
Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo
o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades
satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0
No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas
queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa
da funccedilatildeo logit A partir da equaccedilatildeo(21) temos
logitminus1(α) =1
1 + eminusα=
eα
1 + eα(22)
Adaptado de (MESQUITA 2014)
Capiacutetulo 2 Regressatildeo Logiacutestica 18
α = combinaccedilatildeo linear
No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus
coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y
ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)
Fonte Produzido pelo autor
Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas
90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao
inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y
A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma
parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila
eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x
causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de
mudanccedila de estado da variaacutevel y em funccedilatildeo de x
Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo
entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos
que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento
aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem
sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da
inversa do logit na Figura 2
Capiacutetulo 2 Regressatildeo Logiacutestica 19
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado
Fontelthttpsgooglnwec4Qgt
23 Regressatildeo Logiacutestica Binaacuteria
A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica
em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e
tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens
de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute
dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E
neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por
exemplo
Digamos entatildeo que
g(x) = β0 + β1x1 (23)
Fonte (FIGUEIRA 2006)
seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes
e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada
Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)
ln
(
p
1 minus p
)
= β0 + β1x1
Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p
Pra isso utiliza-se o antilogaritmo
Capiacutetulo 2 Regressatildeo Logiacutestica 20
p
1 minus p= eβ0+β1
Seguindo com o procedimento para isolar p obtemos
p =eβ0+β1x1
1 + eβ0+β1x1
=1
1 + eminus(β0+β1x1)(24)
Fonte Adaptado de (MESQUITA 2014)
A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a
funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade
estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta
equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima
verossimilhanccedila conforme explicado na subseccedilatildeo seguinte
231 Estimando os coeficientes do modelo de regressatildeo
Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1
do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A
partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar
os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que
maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima
verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem
maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra
Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =
π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado
em xi
As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de
verossimilhanccedila eacute
L(β) =nprod
i=1
π(xi)yi [1 minus π(xi)]1minusyi (25)
Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo
log-verossimilhanccedila
l(β) = ln[L(β)] =nsum
i=1
[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)
Capiacutetulo 2 Regressatildeo Logiacutestica 21
O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-
metros (β0 β1)
part ln[L(β)]partβ0
=nsum
i=1
[yi minus π(xi)] (27)
part ln[L(β)]partβ1
=nsum
i=1
xi[yi minus π(xi)] (28)
Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees
(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de
variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa
que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a
sua variaacutevel independente xi
As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar
mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado
que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um
procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente
novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores
ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos
repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila
Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada
por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente
complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos
como SPSS1 SAS2 entre outros
24 Regressatildeo Logiacutestica Muacuteltipla
A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que
a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute
mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a
variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente
eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o
peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo
logiacutestica muacuteltipla
Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa
semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt
Capiacutetulo 2 Regressatildeo Logiacutestica 22
apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo
com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para
o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla
como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria
Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos
considerar este conjunto denotado por X = (x1 x2 xt)
Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para
este conjunto de variaacuteveis eacute definida como
g(x) = β0 + β1x1 + β2x2 + + βtxt (29)
Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo
ln
(
p
1 minus p
)
= β0 + β1x1 + β2x2 + + βtxt (210)
Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-
ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica
muacuteltipla para a probabilidade estimada p
p =eβ0+β1x1+β2x2++βtxt
1 + eβ0+β1x1+β2x2++βtxt
=1
1 + eminus(β0+β1x1+β2x2++βtxt)(211)
A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que
π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis
independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila
eacute obtida como
l(β) =nsum
i=1
[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)
As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas
equaccedilotildees 212 e 213
partl(β)partβ0
=nsum
i=1
yi minusnsum
i=1
πi = 0 (213)
partl(β)partβj
=nsum
i=1
xijyi minusnsum
i=1
xijπi = 0 para j isin 1 t (214)
Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)
πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila
Capiacutetulo 2 Regressatildeo Logiacutestica 23
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das
variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica
para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas
com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes
mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2
de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)
Veremos a seguir cada um deles
251 Teste da Razatildeo de Verossimilhanccedila
Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado
Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila
Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a
β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de
(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo
de verossimilhanccedila eacute expressa da seguinte forma
D = minus2 ln
[
verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado
]
(215)
D = minus2nsum
i=1
[
yi ln
(
πi
yi
)
+ (1 minus yi) ln
(
1 minus πi
1 minus yi
)]
(216)
O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado
corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D
tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o
ajuste do modelo
Queremos testar as hipoacuteteses
H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0
Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados
a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese
alternativa H1
Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de
D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela
inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de
G = D
(
modelo sem a variaacutevelmodelo com a variaacutevel
)
(217)
Capiacutetulo 2 Regressatildeo Logiacutestica 24
Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-
tiva para o modelo
252 Teste de Wald
O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da
significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-
tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada
variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel
dependente
Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-
los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do
objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou
no grupo da natildeo ocorrecircncia do evento (Y = 0)
O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de
um coeficiente e a estimativa do seu erro padratildeo
Wj =βj
var(βj)(218)
Fonte (BATISTA 2015)
Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA
2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos
ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo
quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de
Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado
253 Pseudo R2 de Cox e Snell
A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de
um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo
logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo
linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica
onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato
de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa
similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2
Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive
citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor
Capiacutetulo 2 Regressatildeo Logiacutestica 25
em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a
regressatildeo linear
Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um
dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na
equaccedilatildeo 217
R2 = 1 minus
(
L(β)0
L(β)M
)
2n (219)
Fonte (BATISTA 2015)
Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para
um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A
racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que
depende da probabilidade assumida pelos modelos com e sem preditores
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell
Fonte FIGUEIRA (2006)
O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute
menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente
De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-
dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No
exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40
Este mecanismo pode ser usado para comparar o desempenho de modelos concor-
rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais
elevado
26 Consideraccedilotildees Finais
Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de
dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente
dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de
Capiacutetulo 2 Regressatildeo Logiacutestica 26
variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta
teacutecnica
O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo
de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo
entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam
nos coeficientes que compotildeem o modelo
Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se
que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de
avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos
com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da
regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo
27
3 Aplicaccedilotildees de Regressatildeo Logiacutestica
Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela
primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras
aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias
Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica
ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou
o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este
trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos
envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede
Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de
regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer
e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo
para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria
administraccedilatildeo educaccedilatildeo ambiental e outros
Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de
regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de
creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente
31 Gestatildeo de creacutedito
Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute
muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu
reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou
pagamentos afirma Batista (2015)
Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou
retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de
creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado
atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade
destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante
miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e
concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo
estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento
em relaccedilatildeo agrave pontualidade e regularidade dos mesmos
A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando
no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28
eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)
311 Risco de creacutedito
No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma
transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras
lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito
O simples ato de emprestar uma quantia ou algum item a alguem envolve a
possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza
que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo
entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do
devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso
A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa
gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de
insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)
Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do
creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada
empresa
312 Regressatildeo logiacutestica para anaacutelise de creacutedito
Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de
modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes
para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo
com Gouvecirca Gonccedilalves e Mantovani (2013)
Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-
ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da
instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos
Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de
decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar
ganhos financeiros para a instituiccedilatildeo
A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por
exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade
e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees
qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de
pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam
classificar um perfil de adimplecircncia ou inadimplecircncia
Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29
passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos
90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real
Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit
scoring (CROOK EDELMAN THOMAS 2007)
A seguir veremos os passos para se construir um modelo de credit scoring utilizando
a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)
1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com
base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade
desta base de dados para resultar em um modelo de sucesso
2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da
variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem
variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se
aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente
bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo
devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica
3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute
sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente
neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes
devido agrave diferenccedila de tamanho
4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios
estatiacutesticos cada variaacutevel a ser utilizada no modelo
5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e
das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica
a fim de obter o modelo de regressatildeo
Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado
como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel
dependente binaacuteria Y pode assumir os valores
Y =
1 bom cliente
0 mau cliente
A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes
mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica
de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo
logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30
probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um
mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de
um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03
Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis
independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria
ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das
parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras
Destaca-se portanto que cada estudo oferece um resultado particular pois depende do
que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e
da poliacutetica de cada instituiccedilatildeo
Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito
pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia
aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a
cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado
obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e
consequentemente a perda do creacutedito
313 Aplicaccedilatildeo Exemplo
A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um
modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os
dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso
e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no
municiacutepio de Viccedilosa-MG
De acordo com os referidos autores a base amostral deste estudo foi composta
pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes
legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia
das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos
atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema
fornecido pela agecircncia bancaacuteria em estudo
A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos
clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que
tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise
de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de
relacionamento com o banco a renda o limite do cheque especial o estado civil e a
escolaridade
Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2
divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31
clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino
meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para
poacutes-graduccedilatildeo ou acima disto
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo
Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336
Fonte Adaptado de Ferreira Celso e Neto (2012)
Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos
atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na
Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados
Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento
de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste
cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1
representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na
equaccedilatildeo 31
p =1
1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)
Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e
Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que
clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores
observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e
maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo
agrave inadimplecircncia
32 Anaacutelise ambiental
O homem tem usado e modificado o solo haacute milhares de anos a fim de seu
proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura
urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender
a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32
Fatores como o crescimento populacional e a alta demanda por alimentos e outros
recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas
de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma
das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos
diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma
Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do
homem
Figura 5 ndash Componentes da mudanccedila ambiental global
Fonte VALENCIA (2008)
Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de
km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto
isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e
Foley (1999 apud VALENCIA 2008)
Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza
O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos
naturais dele para a realizaccedilatildeo das mesmas
A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas
do uso do solo
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33
bull Cobertura de solo
A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas
bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo
Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros
bull Uso do solo
O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo
Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem
do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso
do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas
executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo
com FAO (1998 apud VALENCIA 2008)
Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes
usos de solo podem ser realizados em uma mesma cobertura de solo assim como
diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como
mostrado na Tabela 2
Tabela 2 ndash Uso e Cobertura do solo
Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte
Fonte VALENCIA (2008)
bull Mudanccedilas do uso do solo
O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as
mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais
simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou
reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do
solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do
solo pode mudar mesmo se mantendo inalterado seu uso
Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas
de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do
solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente
relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers
(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34
uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras
agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade
a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades
humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes
no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os
dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por
sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra
321 Regressatildeo logiacutestica na anaacutelise ambiental
Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um
conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em
condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo
Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se
como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que
mais contribuem para a ocorrecircncia destas mudanccedilas
O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para
avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma
determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y
denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem
uso agriacutecola
Y =
1 aacutereas com uso agriacutecola
0 aacutereas sem uso agriacutecola
A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre
estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel
tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso
agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das
variaacuteveis independentes a serem consideradas na anaacutelise
A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem
de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados
ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por
exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute
encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes
Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)
que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo
meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35
devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites
florestais entre outros
A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma
aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis
independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo
(natildeo agriacutecola para agriacutecola)
322 Aplicaccedilatildeo Exemplo
O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia
Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo
de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este
estudo foi realizado por Mendes e Vega (2011)
Para a base amostral deste estudo o autor considerou imagens da BAP correspon-
dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a
gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou
aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-
pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a
transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os
pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000
Fonte Mendes e Vega (2011)
Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36
agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto
X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram
incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa
significacircncia para o modelo
A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico
com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de
regressatildeo logiacutestica pode ser observado na Figura 7
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico
Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia
anualTMA oC
Balanccedilo hiacutedricoclimaacutetico meacutedio anual
BHC mmano
Distacircncias para assedes urbanas de
municiacutepios brasileirosinseridos na bacia
D_URBMuacuteltiplos de
graus
Cotas topograacuteficas nabacia pelo lado
brasileiroTOPO m
Cotas topograacuteficasreclassificadas (le 150
m ge 150 m)TOPO_REC 1-2
Distacircncias paraestradas principais(pavimentadas e
federais) brasileirasinseridas na bacia
D_ESTRADAMuacuteltiplos de
graus
Distacircncias para asferrovias brasileirasinseridas na bacia
D_FERROMuacuteltiplos de
graus
Fonte Adaptado de Mendes e Vega (2011)
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados
Fonte Mendes e Vega (2011)
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37
Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute
categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-
ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em
aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e
facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-
mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento
estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas
33 Oacutebito Neonatal
O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias
incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os
sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes
Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias
incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de
neomorto
A mortalidade infantil pode ser considerada um dos melhores indicadores da
qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo
Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo
formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia
ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)
Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130
milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no
periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA
variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de
vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia
Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa
de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et
al 2005)
No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas
apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo
dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo
com as taxas de mortalidade poacutes-neonatal
Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal
teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que
possibilitem identificar os fatores de risco para o oacutebito neonatal
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal
Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-
geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo
consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do
que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos
do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et
al 2011)
A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar
a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer
niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias
separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo
Goldstein (2003)
Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito
neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada
A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em
crianccedilas com menos de 28 dias de vida
Y =
1 ocorrecircncia do oacutebito neonatal
0 natildeo ocorrecircncia do oacutebito neonatal
Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas
satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas
em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar
no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)
tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de
pessoas que moram no mesmo domiciacutelio entre outros
O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil
neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute
importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do
oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de
risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta
a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados
332 Aplicaccedilatildeo Exemplo
Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a
mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos
os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39
De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na
cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de
dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar
os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste
periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos
1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros
A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a
ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo
relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos
de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de
consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e
abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel
dependente foram consideradas estatisticamente significantes
Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-
nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo
varia de 0 a 10 e quanto mais proacuteximo de 10 melhor
Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves
dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4
informa o OR de quatro das variaacuteveis independentes inclusas neste estudo
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo
Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076
Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)
O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo
entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo
Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das
variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos
Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances
iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro
grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo
Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a
variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura
do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40
agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo
(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito
em comparaccedilatildeo agraves crianccedilas a termo
As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de
unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo
de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por
exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave
oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6
Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o
sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator
preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito
34 Consideraccedilotildees Finais
Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido
em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de
creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes
trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser
estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e
um estudo de caso realizado utilizando esta teacutecnica
A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser
usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo
anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo
gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre
o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois
objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees
finais limitaccedilotildees e trabalhos futuros
41
4 Conclusatildeo
O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de
regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de
informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que
ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem
analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que
assumem os valores da variaacutevel dependente
No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo
de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a
muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo
da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo
logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald
satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo
R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado
No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo
logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado
o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso
da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os
resultados obtidos
A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado
neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o
desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente
utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que
atuam com concessatildeo de creacutedito a seus clientes
O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e
o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados
nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo
de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas
Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro
meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja
indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal
caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador
caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo
linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua
A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo
Capiacutetulo 4 Conclusatildeo 42
logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta
de anaacutelise de dados de resposta categoacuterica
Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras
no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi
dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem
dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo
exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar
a regressatildeo logiacutestica com base nesses conceitos
Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo
logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel
eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo
epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios
de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada
um destes grupos entre outras possibilidades
43
Referecircncias
AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12
BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo
de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27
BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel
e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16
BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta
Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27
CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23
CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28
COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27
CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23
CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29
FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31
FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33
GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38
GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp
Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29
Referecircncias 44
HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24
HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27
HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23
JENNINGS D E Judging inference adequacy in logistic regression Journal of the
American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24
KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37
LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33
MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev
Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40
MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27
MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35
MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de
PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20
POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16
RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32
RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de
Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14
TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27
Referecircncias 45
VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila
do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33
ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38
ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37
Sumaacuterio
1 INTRODUCcedilAtildeO 12
11 Objetivos 13
111 Objetivos Especiacuteficos 13
12 Organizaccedilatildeo do Trabalho 13
2 REGRESSAtildeO LOGIacuteSTICA 14
21 Definiccedilatildeo 15
22 A Funccedilatildeo Logit 16
23 Regressatildeo Logiacutestica Binaacuteria 19
231 Estimando os coeficientes do modelo de regressatildeo 20
24 Regressatildeo Logiacutestica Muacuteltipla 21
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico 23
251 Teste da Razatildeo de Verossimilhanccedila 23
252 Teste de Wald 24
253 Pseudo R2 de Cox e Snell 24
26 Consideraccedilotildees Finais 25
3 APLICACcedilOtildeES DE REGRESSAtildeO LOGIacuteSTICA 27
31 Gestatildeo de creacutedito 27
311 Risco de creacutedito 28
312 Regressatildeo logiacutestica para anaacutelise de creacutedito 28
313 Aplicaccedilatildeo Exemplo 30
32 Anaacutelise ambiental 31
321 Regressatildeo logiacutestica na anaacutelise ambiental 34
322 Aplicaccedilatildeo Exemplo 35
33 Oacutebito Neonatal 37
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal 38
332 Aplicaccedilatildeo Exemplo 38
34 Consideraccedilotildees Finais 40
4 CONCLUSAtildeO 41
REFEREcircNCIAS 43
12
1 Introduccedilatildeo
O presente trabalho apresenta a regressatildeo logiacutestica que consiste em uma teacutecnica
de mineraccedilatildeo de dados A mineraccedilatildeo de dados eacute uma ferramenta de apoio para tomada
de decisatildeo baseada em dados computacionais dos quais pretende-se extrair informaccedilotildees
relevantes de uma grande base de dados de forma a buscar vantagens competitivas ou
elaboraccedilatildeo de estrateacutegia
Estes conjuntos de grandes volumes de dados representam um custo tanto de
armazenamento quanto de processamento portanto eacute possiacutevel afirmar que a ideia de
adquirir conhecimento automaticamente destes grandes volumes atraveacutes da mineraccedilatildeo de
dados eacute altamente beneacutefico
Este processo pode empregar algoritmos de inteligecircncia artificial anaacutelise estatiacutestica
recuperaccedilatildeo de informaccedilatildeo reconhecimento de padrotildees e outros Segundo Hosmer e
Lemeshow (2000) meacutetodos de regressatildeo tem se tornado um componente integral para
qualquer anaacutelise de dados interessada em descrever a relaccedilatildeo entre uma variaacutevel resposta
(dependente) e uma ou mais variaacuteveis explicativas (independentes)
A principal diferenccedila da regressatildeo logiacutestica para a regressatildeo linear eacute que a variaacutevel
dependente na regressatildeo logiacutestica eacute categoacuterica e de acordo com Agresti (2002) o modelo
de regressatildeo logiacutestica eacute o modelo mais importante para dados de resposta categoacuterica
Aleacutem da variaacutevel dependente ser categoacuterica ela eacute frequentemente binaacuteria (dicotocirc-
mica) assumindo portanto dois valores que satildeo normalmente tratados como ldquosucessordquo
ou ldquofracassordquo Estes dois valores representam um evento que depende do estudo de caso
podendo ser por exemplo ou a concessatildeo ou a natildeo concessatildeo de creacutedito na aacuterea financeira
ou a presenccedila ou a natildeo presenccedila de uma doenccedila nos estudos epidemioloacutegicos ou a compra
ou a natildeo compra de um determinado produto na aacuterea de marketing entre outras diversas
possibilidades
Aplicaccedilotildees de anaacutelise de creacutedito por exemplo podem utilizar a regressatildeo logiacutestica
para calcular a probabilidade de um indiviacuteduo ser merecedor da concessatildeo de creacutedito
Informaccedilotildees pessoais como salaacuterio emprego tipo de moradia satildeo exemplos de possiacuteveis
variaacuteveis que podem ser levadas em consideraccedilatildeo Isto permite natildeo apenas a estimaccedilatildeo
dessa probabilidade mas tambeacutem como traccedilar o perfil de um bom ou mau pagador
Haacute diversas teacutecnicas de mineraccedilatildeo de dados cada uma com suas particularidades
a escolha da tarefa a ser utilizada eacute um importante passo para a obtenccedilatildeo de resultados
satisfatoacuterios dentro de um determinado estudo isto soacute eacute possiacutevel com a compreensatildeo da
mesma e de sua capacidade
Capiacutetulo 1 Introduccedilatildeo 13
Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como
eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de
meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes
domiacutenios nos quais esta teacutecnica pode ser aplicada
11 Objetivos
O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como
ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio
de exemplos de aplicaccedilotildees
111 Objetivos Especiacuteficos
Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos
bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos
bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica
bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental
e epidemioloacutegica apontando seus resultados
12 Organizaccedilatildeo do Trabalho
O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2
apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica
a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo
O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito
neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas
aacutereas
Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do
que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado
e as consideraccedilotildees finais
14
2 Regressatildeo Logiacutestica
A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis
em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para
agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam
de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)
Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste
em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado
de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos
preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis
independentes ou explicativas
A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel
dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas
que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel
dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo
1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja
indicando dois possiacuteveis valores ou categorias
A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo
fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica
eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as
variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas
Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias
da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de
determinado evento assim como a influecircncia de cada variaacutevel independente no evento
estudado
Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-
zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais
diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de
voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de
outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados
categoacutericos
Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica
binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico
e quais os testes que avaliam a significatildencia de um modelo estimado
Capiacutetulo 2 Regressatildeo Logiacutestica 15
21 Definiccedilatildeo
A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir
a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores
tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais
variaacuteveis independentes contiacutenuas eou binaacuterias
Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade
de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria
Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio
do sono potencialmente grave em que a pessoa para de respirar por alguns segundos
diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio
mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para
esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele
tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a
ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As
variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica
propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa
prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade
desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo
logiacutestica
O modelo de regressatildeo logiacutestica permite
bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis
independentes que podem ser categoacutericas ou contiacutenuas
Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do
sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos
ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado
seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor
seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de
ter apneia do sono
bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada
aleatoriamente contra a probabilidade do evento natildeo ocorrer
Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia
A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de
um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp
1 minus pque
eacute chamada de chance Assim temos0 750 25
= 3 isto significa que uma pessoa nessas
caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter
Capiacutetulo 2 Regressatildeo Logiacutestica 16
bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria
Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel
peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel
idade natildeo contribui tanto para a eficaacutecia do mesmo
bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma
categoria determinada
A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos
ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio
A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes
casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade
desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da
distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)
Y =
1 se ocorrer sucesso
0 se ocorrerfracasso
A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p
Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma
combinaccedilatildeo linear de variaacuteveis independentes
22 A Funccedilatildeo Logit
Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue
a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave
distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na
regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas
de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma
combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p
Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio
uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar
qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1
A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural
o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21
ln(odds) rArr ln
(
p
1 minus p
)
(21)
Fonte Adaptado de (POWERS XIE 1999)
Capiacutetulo 2 Regressatildeo Logiacutestica 17
Figura 1 ndash Graacutefico da funccedilatildeo logit(p)
Fonte Produzido pelo autor
Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo
vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica
comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =
indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro
desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito
uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste
modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou
inferior a 0
Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo
o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades
satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0
No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas
queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa
da funccedilatildeo logit A partir da equaccedilatildeo(21) temos
logitminus1(α) =1
1 + eminusα=
eα
1 + eα(22)
Adaptado de (MESQUITA 2014)
Capiacutetulo 2 Regressatildeo Logiacutestica 18
α = combinaccedilatildeo linear
No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus
coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y
ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)
Fonte Produzido pelo autor
Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas
90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao
inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y
A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma
parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila
eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x
causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de
mudanccedila de estado da variaacutevel y em funccedilatildeo de x
Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo
entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos
que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento
aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem
sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da
inversa do logit na Figura 2
Capiacutetulo 2 Regressatildeo Logiacutestica 19
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado
Fontelthttpsgooglnwec4Qgt
23 Regressatildeo Logiacutestica Binaacuteria
A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica
em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e
tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens
de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute
dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E
neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por
exemplo
Digamos entatildeo que
g(x) = β0 + β1x1 (23)
Fonte (FIGUEIRA 2006)
seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes
e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada
Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)
ln
(
p
1 minus p
)
= β0 + β1x1
Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p
Pra isso utiliza-se o antilogaritmo
Capiacutetulo 2 Regressatildeo Logiacutestica 20
p
1 minus p= eβ0+β1
Seguindo com o procedimento para isolar p obtemos
p =eβ0+β1x1
1 + eβ0+β1x1
=1
1 + eminus(β0+β1x1)(24)
Fonte Adaptado de (MESQUITA 2014)
A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a
funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade
estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta
equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima
verossimilhanccedila conforme explicado na subseccedilatildeo seguinte
231 Estimando os coeficientes do modelo de regressatildeo
Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1
do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A
partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar
os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que
maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima
verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem
maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra
Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =
π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado
em xi
As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de
verossimilhanccedila eacute
L(β) =nprod
i=1
π(xi)yi [1 minus π(xi)]1minusyi (25)
Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo
log-verossimilhanccedila
l(β) = ln[L(β)] =nsum
i=1
[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)
Capiacutetulo 2 Regressatildeo Logiacutestica 21
O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-
metros (β0 β1)
part ln[L(β)]partβ0
=nsum
i=1
[yi minus π(xi)] (27)
part ln[L(β)]partβ1
=nsum
i=1
xi[yi minus π(xi)] (28)
Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees
(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de
variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa
que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a
sua variaacutevel independente xi
As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar
mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado
que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um
procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente
novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores
ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos
repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila
Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada
por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente
complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos
como SPSS1 SAS2 entre outros
24 Regressatildeo Logiacutestica Muacuteltipla
A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que
a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute
mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a
variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente
eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o
peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo
logiacutestica muacuteltipla
Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa
semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt
Capiacutetulo 2 Regressatildeo Logiacutestica 22
apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo
com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para
o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla
como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria
Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos
considerar este conjunto denotado por X = (x1 x2 xt)
Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para
este conjunto de variaacuteveis eacute definida como
g(x) = β0 + β1x1 + β2x2 + + βtxt (29)
Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo
ln
(
p
1 minus p
)
= β0 + β1x1 + β2x2 + + βtxt (210)
Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-
ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica
muacuteltipla para a probabilidade estimada p
p =eβ0+β1x1+β2x2++βtxt
1 + eβ0+β1x1+β2x2++βtxt
=1
1 + eminus(β0+β1x1+β2x2++βtxt)(211)
A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que
π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis
independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila
eacute obtida como
l(β) =nsum
i=1
[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)
As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas
equaccedilotildees 212 e 213
partl(β)partβ0
=nsum
i=1
yi minusnsum
i=1
πi = 0 (213)
partl(β)partβj
=nsum
i=1
xijyi minusnsum
i=1
xijπi = 0 para j isin 1 t (214)
Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)
πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila
Capiacutetulo 2 Regressatildeo Logiacutestica 23
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das
variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica
para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas
com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes
mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2
de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)
Veremos a seguir cada um deles
251 Teste da Razatildeo de Verossimilhanccedila
Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado
Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila
Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a
β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de
(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo
de verossimilhanccedila eacute expressa da seguinte forma
D = minus2 ln
[
verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado
]
(215)
D = minus2nsum
i=1
[
yi ln
(
πi
yi
)
+ (1 minus yi) ln
(
1 minus πi
1 minus yi
)]
(216)
O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado
corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D
tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o
ajuste do modelo
Queremos testar as hipoacuteteses
H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0
Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados
a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese
alternativa H1
Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de
D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela
inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de
G = D
(
modelo sem a variaacutevelmodelo com a variaacutevel
)
(217)
Capiacutetulo 2 Regressatildeo Logiacutestica 24
Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-
tiva para o modelo
252 Teste de Wald
O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da
significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-
tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada
variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel
dependente
Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-
los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do
objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou
no grupo da natildeo ocorrecircncia do evento (Y = 0)
O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de
um coeficiente e a estimativa do seu erro padratildeo
Wj =βj
var(βj)(218)
Fonte (BATISTA 2015)
Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA
2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos
ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo
quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de
Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado
253 Pseudo R2 de Cox e Snell
A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de
um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo
logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo
linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica
onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato
de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa
similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2
Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive
citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor
Capiacutetulo 2 Regressatildeo Logiacutestica 25
em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a
regressatildeo linear
Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um
dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na
equaccedilatildeo 217
R2 = 1 minus
(
L(β)0
L(β)M
)
2n (219)
Fonte (BATISTA 2015)
Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para
um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A
racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que
depende da probabilidade assumida pelos modelos com e sem preditores
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell
Fonte FIGUEIRA (2006)
O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute
menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente
De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-
dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No
exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40
Este mecanismo pode ser usado para comparar o desempenho de modelos concor-
rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais
elevado
26 Consideraccedilotildees Finais
Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de
dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente
dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de
Capiacutetulo 2 Regressatildeo Logiacutestica 26
variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta
teacutecnica
O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo
de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo
entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam
nos coeficientes que compotildeem o modelo
Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se
que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de
avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos
com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da
regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo
27
3 Aplicaccedilotildees de Regressatildeo Logiacutestica
Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela
primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras
aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias
Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica
ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou
o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este
trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos
envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede
Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de
regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer
e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo
para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria
administraccedilatildeo educaccedilatildeo ambiental e outros
Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de
regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de
creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente
31 Gestatildeo de creacutedito
Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute
muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu
reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou
pagamentos afirma Batista (2015)
Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou
retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de
creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado
atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade
destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante
miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e
concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo
estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento
em relaccedilatildeo agrave pontualidade e regularidade dos mesmos
A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando
no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28
eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)
311 Risco de creacutedito
No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma
transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras
lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito
O simples ato de emprestar uma quantia ou algum item a alguem envolve a
possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza
que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo
entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do
devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso
A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa
gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de
insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)
Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do
creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada
empresa
312 Regressatildeo logiacutestica para anaacutelise de creacutedito
Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de
modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes
para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo
com Gouvecirca Gonccedilalves e Mantovani (2013)
Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-
ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da
instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos
Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de
decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar
ganhos financeiros para a instituiccedilatildeo
A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por
exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade
e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees
qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de
pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam
classificar um perfil de adimplecircncia ou inadimplecircncia
Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29
passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos
90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real
Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit
scoring (CROOK EDELMAN THOMAS 2007)
A seguir veremos os passos para se construir um modelo de credit scoring utilizando
a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)
1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com
base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade
desta base de dados para resultar em um modelo de sucesso
2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da
variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem
variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se
aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente
bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo
devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica
3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute
sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente
neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes
devido agrave diferenccedila de tamanho
4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios
estatiacutesticos cada variaacutevel a ser utilizada no modelo
5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e
das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica
a fim de obter o modelo de regressatildeo
Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado
como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel
dependente binaacuteria Y pode assumir os valores
Y =
1 bom cliente
0 mau cliente
A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes
mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica
de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo
logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30
probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um
mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de
um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03
Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis
independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria
ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das
parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras
Destaca-se portanto que cada estudo oferece um resultado particular pois depende do
que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e
da poliacutetica de cada instituiccedilatildeo
Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito
pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia
aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a
cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado
obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e
consequentemente a perda do creacutedito
313 Aplicaccedilatildeo Exemplo
A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um
modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os
dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso
e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no
municiacutepio de Viccedilosa-MG
De acordo com os referidos autores a base amostral deste estudo foi composta
pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes
legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia
das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos
atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema
fornecido pela agecircncia bancaacuteria em estudo
A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos
clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que
tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise
de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de
relacionamento com o banco a renda o limite do cheque especial o estado civil e a
escolaridade
Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2
divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31
clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino
meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para
poacutes-graduccedilatildeo ou acima disto
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo
Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336
Fonte Adaptado de Ferreira Celso e Neto (2012)
Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos
atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na
Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados
Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento
de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste
cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1
representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na
equaccedilatildeo 31
p =1
1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)
Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e
Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que
clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores
observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e
maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo
agrave inadimplecircncia
32 Anaacutelise ambiental
O homem tem usado e modificado o solo haacute milhares de anos a fim de seu
proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura
urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender
a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32
Fatores como o crescimento populacional e a alta demanda por alimentos e outros
recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas
de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma
das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos
diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma
Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do
homem
Figura 5 ndash Componentes da mudanccedila ambiental global
Fonte VALENCIA (2008)
Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de
km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto
isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e
Foley (1999 apud VALENCIA 2008)
Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza
O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos
naturais dele para a realizaccedilatildeo das mesmas
A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas
do uso do solo
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33
bull Cobertura de solo
A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas
bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo
Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros
bull Uso do solo
O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo
Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem
do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso
do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas
executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo
com FAO (1998 apud VALENCIA 2008)
Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes
usos de solo podem ser realizados em uma mesma cobertura de solo assim como
diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como
mostrado na Tabela 2
Tabela 2 ndash Uso e Cobertura do solo
Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte
Fonte VALENCIA (2008)
bull Mudanccedilas do uso do solo
O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as
mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais
simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou
reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do
solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do
solo pode mudar mesmo se mantendo inalterado seu uso
Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas
de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do
solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente
relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers
(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34
uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras
agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade
a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades
humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes
no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os
dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por
sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra
321 Regressatildeo logiacutestica na anaacutelise ambiental
Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um
conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em
condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo
Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se
como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que
mais contribuem para a ocorrecircncia destas mudanccedilas
O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para
avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma
determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y
denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem
uso agriacutecola
Y =
1 aacutereas com uso agriacutecola
0 aacutereas sem uso agriacutecola
A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre
estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel
tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso
agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das
variaacuteveis independentes a serem consideradas na anaacutelise
A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem
de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados
ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por
exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute
encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes
Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)
que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo
meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35
devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites
florestais entre outros
A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma
aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis
independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo
(natildeo agriacutecola para agriacutecola)
322 Aplicaccedilatildeo Exemplo
O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia
Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo
de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este
estudo foi realizado por Mendes e Vega (2011)
Para a base amostral deste estudo o autor considerou imagens da BAP correspon-
dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a
gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou
aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-
pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a
transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os
pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000
Fonte Mendes e Vega (2011)
Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36
agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto
X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram
incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa
significacircncia para o modelo
A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico
com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de
regressatildeo logiacutestica pode ser observado na Figura 7
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico
Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia
anualTMA oC
Balanccedilo hiacutedricoclimaacutetico meacutedio anual
BHC mmano
Distacircncias para assedes urbanas de
municiacutepios brasileirosinseridos na bacia
D_URBMuacuteltiplos de
graus
Cotas topograacuteficas nabacia pelo lado
brasileiroTOPO m
Cotas topograacuteficasreclassificadas (le 150
m ge 150 m)TOPO_REC 1-2
Distacircncias paraestradas principais(pavimentadas e
federais) brasileirasinseridas na bacia
D_ESTRADAMuacuteltiplos de
graus
Distacircncias para asferrovias brasileirasinseridas na bacia
D_FERROMuacuteltiplos de
graus
Fonte Adaptado de Mendes e Vega (2011)
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados
Fonte Mendes e Vega (2011)
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37
Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute
categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-
ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em
aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e
facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-
mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento
estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas
33 Oacutebito Neonatal
O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias
incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os
sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes
Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias
incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de
neomorto
A mortalidade infantil pode ser considerada um dos melhores indicadores da
qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo
Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo
formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia
ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)
Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130
milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no
periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA
variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de
vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia
Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa
de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et
al 2005)
No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas
apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo
dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo
com as taxas de mortalidade poacutes-neonatal
Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal
teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que
possibilitem identificar os fatores de risco para o oacutebito neonatal
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal
Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-
geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo
consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do
que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos
do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et
al 2011)
A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar
a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer
niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias
separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo
Goldstein (2003)
Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito
neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada
A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em
crianccedilas com menos de 28 dias de vida
Y =
1 ocorrecircncia do oacutebito neonatal
0 natildeo ocorrecircncia do oacutebito neonatal
Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas
satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas
em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar
no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)
tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de
pessoas que moram no mesmo domiciacutelio entre outros
O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil
neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute
importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do
oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de
risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta
a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados
332 Aplicaccedilatildeo Exemplo
Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a
mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos
os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39
De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na
cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de
dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar
os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste
periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos
1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros
A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a
ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo
relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos
de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de
consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e
abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel
dependente foram consideradas estatisticamente significantes
Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-
nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo
varia de 0 a 10 e quanto mais proacuteximo de 10 melhor
Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves
dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4
informa o OR de quatro das variaacuteveis independentes inclusas neste estudo
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo
Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076
Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)
O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo
entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo
Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das
variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos
Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances
iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro
grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo
Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a
variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura
do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40
agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo
(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito
em comparaccedilatildeo agraves crianccedilas a termo
As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de
unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo
de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por
exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave
oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6
Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o
sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator
preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito
34 Consideraccedilotildees Finais
Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido
em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de
creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes
trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser
estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e
um estudo de caso realizado utilizando esta teacutecnica
A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser
usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo
anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo
gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre
o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois
objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees
finais limitaccedilotildees e trabalhos futuros
41
4 Conclusatildeo
O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de
regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de
informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que
ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem
analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que
assumem os valores da variaacutevel dependente
No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo
de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a
muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo
da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo
logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald
satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo
R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado
No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo
logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado
o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso
da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os
resultados obtidos
A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado
neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o
desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente
utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que
atuam com concessatildeo de creacutedito a seus clientes
O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e
o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados
nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo
de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas
Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro
meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja
indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal
caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador
caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo
linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua
A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo
Capiacutetulo 4 Conclusatildeo 42
logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta
de anaacutelise de dados de resposta categoacuterica
Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras
no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi
dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem
dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo
exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar
a regressatildeo logiacutestica com base nesses conceitos
Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo
logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel
eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo
epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios
de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada
um destes grupos entre outras possibilidades
43
Referecircncias
AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12
BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo
de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27
BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel
e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16
BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta
Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27
CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23
CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28
COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27
CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23
CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29
FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31
FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33
GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38
GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp
Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29
Referecircncias 44
HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24
HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27
HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23
JENNINGS D E Judging inference adequacy in logistic regression Journal of the
American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24
KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37
LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33
MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev
Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40
MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27
MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35
MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de
PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20
POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16
RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32
RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de
Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14
TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27
Referecircncias 45
VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila
do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33
ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38
ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37
12
1 Introduccedilatildeo
O presente trabalho apresenta a regressatildeo logiacutestica que consiste em uma teacutecnica
de mineraccedilatildeo de dados A mineraccedilatildeo de dados eacute uma ferramenta de apoio para tomada
de decisatildeo baseada em dados computacionais dos quais pretende-se extrair informaccedilotildees
relevantes de uma grande base de dados de forma a buscar vantagens competitivas ou
elaboraccedilatildeo de estrateacutegia
Estes conjuntos de grandes volumes de dados representam um custo tanto de
armazenamento quanto de processamento portanto eacute possiacutevel afirmar que a ideia de
adquirir conhecimento automaticamente destes grandes volumes atraveacutes da mineraccedilatildeo de
dados eacute altamente beneacutefico
Este processo pode empregar algoritmos de inteligecircncia artificial anaacutelise estatiacutestica
recuperaccedilatildeo de informaccedilatildeo reconhecimento de padrotildees e outros Segundo Hosmer e
Lemeshow (2000) meacutetodos de regressatildeo tem se tornado um componente integral para
qualquer anaacutelise de dados interessada em descrever a relaccedilatildeo entre uma variaacutevel resposta
(dependente) e uma ou mais variaacuteveis explicativas (independentes)
A principal diferenccedila da regressatildeo logiacutestica para a regressatildeo linear eacute que a variaacutevel
dependente na regressatildeo logiacutestica eacute categoacuterica e de acordo com Agresti (2002) o modelo
de regressatildeo logiacutestica eacute o modelo mais importante para dados de resposta categoacuterica
Aleacutem da variaacutevel dependente ser categoacuterica ela eacute frequentemente binaacuteria (dicotocirc-
mica) assumindo portanto dois valores que satildeo normalmente tratados como ldquosucessordquo
ou ldquofracassordquo Estes dois valores representam um evento que depende do estudo de caso
podendo ser por exemplo ou a concessatildeo ou a natildeo concessatildeo de creacutedito na aacuterea financeira
ou a presenccedila ou a natildeo presenccedila de uma doenccedila nos estudos epidemioloacutegicos ou a compra
ou a natildeo compra de um determinado produto na aacuterea de marketing entre outras diversas
possibilidades
Aplicaccedilotildees de anaacutelise de creacutedito por exemplo podem utilizar a regressatildeo logiacutestica
para calcular a probabilidade de um indiviacuteduo ser merecedor da concessatildeo de creacutedito
Informaccedilotildees pessoais como salaacuterio emprego tipo de moradia satildeo exemplos de possiacuteveis
variaacuteveis que podem ser levadas em consideraccedilatildeo Isto permite natildeo apenas a estimaccedilatildeo
dessa probabilidade mas tambeacutem como traccedilar o perfil de um bom ou mau pagador
Haacute diversas teacutecnicas de mineraccedilatildeo de dados cada uma com suas particularidades
a escolha da tarefa a ser utilizada eacute um importante passo para a obtenccedilatildeo de resultados
satisfatoacuterios dentro de um determinado estudo isto soacute eacute possiacutevel com a compreensatildeo da
mesma e de sua capacidade
Capiacutetulo 1 Introduccedilatildeo 13
Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como
eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de
meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes
domiacutenios nos quais esta teacutecnica pode ser aplicada
11 Objetivos
O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como
ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio
de exemplos de aplicaccedilotildees
111 Objetivos Especiacuteficos
Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos
bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos
bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica
bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental
e epidemioloacutegica apontando seus resultados
12 Organizaccedilatildeo do Trabalho
O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2
apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica
a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo
O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito
neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas
aacutereas
Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do
que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado
e as consideraccedilotildees finais
14
2 Regressatildeo Logiacutestica
A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis
em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para
agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam
de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)
Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste
em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado
de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos
preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis
independentes ou explicativas
A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel
dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas
que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel
dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo
1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja
indicando dois possiacuteveis valores ou categorias
A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo
fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica
eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as
variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas
Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias
da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de
determinado evento assim como a influecircncia de cada variaacutevel independente no evento
estudado
Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-
zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais
diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de
voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de
outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados
categoacutericos
Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica
binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico
e quais os testes que avaliam a significatildencia de um modelo estimado
Capiacutetulo 2 Regressatildeo Logiacutestica 15
21 Definiccedilatildeo
A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir
a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores
tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais
variaacuteveis independentes contiacutenuas eou binaacuterias
Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade
de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria
Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio
do sono potencialmente grave em que a pessoa para de respirar por alguns segundos
diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio
mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para
esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele
tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a
ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As
variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica
propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa
prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade
desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo
logiacutestica
O modelo de regressatildeo logiacutestica permite
bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis
independentes que podem ser categoacutericas ou contiacutenuas
Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do
sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos
ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado
seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor
seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de
ter apneia do sono
bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada
aleatoriamente contra a probabilidade do evento natildeo ocorrer
Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia
A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de
um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp
1 minus pque
eacute chamada de chance Assim temos0 750 25
= 3 isto significa que uma pessoa nessas
caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter
Capiacutetulo 2 Regressatildeo Logiacutestica 16
bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria
Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel
peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel
idade natildeo contribui tanto para a eficaacutecia do mesmo
bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma
categoria determinada
A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos
ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio
A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes
casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade
desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da
distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)
Y =
1 se ocorrer sucesso
0 se ocorrerfracasso
A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p
Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma
combinaccedilatildeo linear de variaacuteveis independentes
22 A Funccedilatildeo Logit
Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue
a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave
distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na
regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas
de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma
combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p
Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio
uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar
qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1
A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural
o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21
ln(odds) rArr ln
(
p
1 minus p
)
(21)
Fonte Adaptado de (POWERS XIE 1999)
Capiacutetulo 2 Regressatildeo Logiacutestica 17
Figura 1 ndash Graacutefico da funccedilatildeo logit(p)
Fonte Produzido pelo autor
Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo
vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica
comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =
indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro
desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito
uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste
modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou
inferior a 0
Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo
o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades
satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0
No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas
queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa
da funccedilatildeo logit A partir da equaccedilatildeo(21) temos
logitminus1(α) =1
1 + eminusα=
eα
1 + eα(22)
Adaptado de (MESQUITA 2014)
Capiacutetulo 2 Regressatildeo Logiacutestica 18
α = combinaccedilatildeo linear
No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus
coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y
ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)
Fonte Produzido pelo autor
Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas
90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao
inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y
A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma
parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila
eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x
causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de
mudanccedila de estado da variaacutevel y em funccedilatildeo de x
Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo
entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos
que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento
aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem
sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da
inversa do logit na Figura 2
Capiacutetulo 2 Regressatildeo Logiacutestica 19
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado
Fontelthttpsgooglnwec4Qgt
23 Regressatildeo Logiacutestica Binaacuteria
A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica
em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e
tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens
de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute
dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E
neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por
exemplo
Digamos entatildeo que
g(x) = β0 + β1x1 (23)
Fonte (FIGUEIRA 2006)
seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes
e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada
Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)
ln
(
p
1 minus p
)
= β0 + β1x1
Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p
Pra isso utiliza-se o antilogaritmo
Capiacutetulo 2 Regressatildeo Logiacutestica 20
p
1 minus p= eβ0+β1
Seguindo com o procedimento para isolar p obtemos
p =eβ0+β1x1
1 + eβ0+β1x1
=1
1 + eminus(β0+β1x1)(24)
Fonte Adaptado de (MESQUITA 2014)
A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a
funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade
estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta
equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima
verossimilhanccedila conforme explicado na subseccedilatildeo seguinte
231 Estimando os coeficientes do modelo de regressatildeo
Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1
do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A
partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar
os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que
maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima
verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem
maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra
Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =
π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado
em xi
As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de
verossimilhanccedila eacute
L(β) =nprod
i=1
π(xi)yi [1 minus π(xi)]1minusyi (25)
Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo
log-verossimilhanccedila
l(β) = ln[L(β)] =nsum
i=1
[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)
Capiacutetulo 2 Regressatildeo Logiacutestica 21
O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-
metros (β0 β1)
part ln[L(β)]partβ0
=nsum
i=1
[yi minus π(xi)] (27)
part ln[L(β)]partβ1
=nsum
i=1
xi[yi minus π(xi)] (28)
Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees
(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de
variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa
que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a
sua variaacutevel independente xi
As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar
mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado
que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um
procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente
novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores
ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos
repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila
Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada
por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente
complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos
como SPSS1 SAS2 entre outros
24 Regressatildeo Logiacutestica Muacuteltipla
A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que
a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute
mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a
variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente
eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o
peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo
logiacutestica muacuteltipla
Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa
semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt
Capiacutetulo 2 Regressatildeo Logiacutestica 22
apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo
com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para
o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla
como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria
Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos
considerar este conjunto denotado por X = (x1 x2 xt)
Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para
este conjunto de variaacuteveis eacute definida como
g(x) = β0 + β1x1 + β2x2 + + βtxt (29)
Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo
ln
(
p
1 minus p
)
= β0 + β1x1 + β2x2 + + βtxt (210)
Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-
ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica
muacuteltipla para a probabilidade estimada p
p =eβ0+β1x1+β2x2++βtxt
1 + eβ0+β1x1+β2x2++βtxt
=1
1 + eminus(β0+β1x1+β2x2++βtxt)(211)
A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que
π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis
independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila
eacute obtida como
l(β) =nsum
i=1
[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)
As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas
equaccedilotildees 212 e 213
partl(β)partβ0
=nsum
i=1
yi minusnsum
i=1
πi = 0 (213)
partl(β)partβj
=nsum
i=1
xijyi minusnsum
i=1
xijπi = 0 para j isin 1 t (214)
Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)
πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila
Capiacutetulo 2 Regressatildeo Logiacutestica 23
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das
variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica
para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas
com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes
mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2
de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)
Veremos a seguir cada um deles
251 Teste da Razatildeo de Verossimilhanccedila
Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado
Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila
Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a
β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de
(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo
de verossimilhanccedila eacute expressa da seguinte forma
D = minus2 ln
[
verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado
]
(215)
D = minus2nsum
i=1
[
yi ln
(
πi
yi
)
+ (1 minus yi) ln
(
1 minus πi
1 minus yi
)]
(216)
O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado
corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D
tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o
ajuste do modelo
Queremos testar as hipoacuteteses
H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0
Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados
a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese
alternativa H1
Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de
D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela
inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de
G = D
(
modelo sem a variaacutevelmodelo com a variaacutevel
)
(217)
Capiacutetulo 2 Regressatildeo Logiacutestica 24
Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-
tiva para o modelo
252 Teste de Wald
O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da
significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-
tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada
variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel
dependente
Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-
los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do
objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou
no grupo da natildeo ocorrecircncia do evento (Y = 0)
O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de
um coeficiente e a estimativa do seu erro padratildeo
Wj =βj
var(βj)(218)
Fonte (BATISTA 2015)
Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA
2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos
ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo
quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de
Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado
253 Pseudo R2 de Cox e Snell
A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de
um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo
logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo
linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica
onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato
de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa
similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2
Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive
citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor
Capiacutetulo 2 Regressatildeo Logiacutestica 25
em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a
regressatildeo linear
Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um
dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na
equaccedilatildeo 217
R2 = 1 minus
(
L(β)0
L(β)M
)
2n (219)
Fonte (BATISTA 2015)
Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para
um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A
racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que
depende da probabilidade assumida pelos modelos com e sem preditores
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell
Fonte FIGUEIRA (2006)
O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute
menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente
De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-
dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No
exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40
Este mecanismo pode ser usado para comparar o desempenho de modelos concor-
rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais
elevado
26 Consideraccedilotildees Finais
Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de
dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente
dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de
Capiacutetulo 2 Regressatildeo Logiacutestica 26
variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta
teacutecnica
O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo
de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo
entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam
nos coeficientes que compotildeem o modelo
Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se
que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de
avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos
com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da
regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo
27
3 Aplicaccedilotildees de Regressatildeo Logiacutestica
Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela
primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras
aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias
Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica
ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou
o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este
trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos
envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede
Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de
regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer
e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo
para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria
administraccedilatildeo educaccedilatildeo ambiental e outros
Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de
regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de
creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente
31 Gestatildeo de creacutedito
Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute
muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu
reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou
pagamentos afirma Batista (2015)
Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou
retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de
creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado
atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade
destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante
miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e
concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo
estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento
em relaccedilatildeo agrave pontualidade e regularidade dos mesmos
A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando
no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28
eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)
311 Risco de creacutedito
No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma
transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras
lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito
O simples ato de emprestar uma quantia ou algum item a alguem envolve a
possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza
que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo
entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do
devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso
A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa
gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de
insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)
Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do
creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada
empresa
312 Regressatildeo logiacutestica para anaacutelise de creacutedito
Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de
modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes
para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo
com Gouvecirca Gonccedilalves e Mantovani (2013)
Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-
ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da
instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos
Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de
decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar
ganhos financeiros para a instituiccedilatildeo
A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por
exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade
e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees
qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de
pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam
classificar um perfil de adimplecircncia ou inadimplecircncia
Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29
passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos
90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real
Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit
scoring (CROOK EDELMAN THOMAS 2007)
A seguir veremos os passos para se construir um modelo de credit scoring utilizando
a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)
1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com
base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade
desta base de dados para resultar em um modelo de sucesso
2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da
variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem
variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se
aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente
bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo
devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica
3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute
sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente
neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes
devido agrave diferenccedila de tamanho
4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios
estatiacutesticos cada variaacutevel a ser utilizada no modelo
5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e
das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica
a fim de obter o modelo de regressatildeo
Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado
como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel
dependente binaacuteria Y pode assumir os valores
Y =
1 bom cliente
0 mau cliente
A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes
mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica
de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo
logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30
probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um
mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de
um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03
Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis
independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria
ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das
parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras
Destaca-se portanto que cada estudo oferece um resultado particular pois depende do
que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e
da poliacutetica de cada instituiccedilatildeo
Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito
pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia
aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a
cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado
obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e
consequentemente a perda do creacutedito
313 Aplicaccedilatildeo Exemplo
A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um
modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os
dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso
e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no
municiacutepio de Viccedilosa-MG
De acordo com os referidos autores a base amostral deste estudo foi composta
pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes
legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia
das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos
atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema
fornecido pela agecircncia bancaacuteria em estudo
A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos
clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que
tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise
de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de
relacionamento com o banco a renda o limite do cheque especial o estado civil e a
escolaridade
Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2
divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31
clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino
meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para
poacutes-graduccedilatildeo ou acima disto
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo
Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336
Fonte Adaptado de Ferreira Celso e Neto (2012)
Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos
atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na
Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados
Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento
de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste
cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1
representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na
equaccedilatildeo 31
p =1
1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)
Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e
Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que
clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores
observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e
maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo
agrave inadimplecircncia
32 Anaacutelise ambiental
O homem tem usado e modificado o solo haacute milhares de anos a fim de seu
proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura
urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender
a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32
Fatores como o crescimento populacional e a alta demanda por alimentos e outros
recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas
de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma
das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos
diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma
Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do
homem
Figura 5 ndash Componentes da mudanccedila ambiental global
Fonte VALENCIA (2008)
Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de
km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto
isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e
Foley (1999 apud VALENCIA 2008)
Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza
O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos
naturais dele para a realizaccedilatildeo das mesmas
A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas
do uso do solo
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33
bull Cobertura de solo
A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas
bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo
Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros
bull Uso do solo
O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo
Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem
do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso
do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas
executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo
com FAO (1998 apud VALENCIA 2008)
Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes
usos de solo podem ser realizados em uma mesma cobertura de solo assim como
diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como
mostrado na Tabela 2
Tabela 2 ndash Uso e Cobertura do solo
Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte
Fonte VALENCIA (2008)
bull Mudanccedilas do uso do solo
O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as
mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais
simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou
reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do
solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do
solo pode mudar mesmo se mantendo inalterado seu uso
Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas
de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do
solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente
relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers
(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34
uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras
agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade
a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades
humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes
no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os
dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por
sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra
321 Regressatildeo logiacutestica na anaacutelise ambiental
Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um
conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em
condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo
Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se
como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que
mais contribuem para a ocorrecircncia destas mudanccedilas
O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para
avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma
determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y
denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem
uso agriacutecola
Y =
1 aacutereas com uso agriacutecola
0 aacutereas sem uso agriacutecola
A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre
estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel
tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso
agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das
variaacuteveis independentes a serem consideradas na anaacutelise
A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem
de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados
ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por
exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute
encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes
Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)
que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo
meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35
devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites
florestais entre outros
A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma
aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis
independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo
(natildeo agriacutecola para agriacutecola)
322 Aplicaccedilatildeo Exemplo
O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia
Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo
de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este
estudo foi realizado por Mendes e Vega (2011)
Para a base amostral deste estudo o autor considerou imagens da BAP correspon-
dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a
gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou
aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-
pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a
transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os
pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000
Fonte Mendes e Vega (2011)
Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36
agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto
X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram
incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa
significacircncia para o modelo
A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico
com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de
regressatildeo logiacutestica pode ser observado na Figura 7
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico
Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia
anualTMA oC
Balanccedilo hiacutedricoclimaacutetico meacutedio anual
BHC mmano
Distacircncias para assedes urbanas de
municiacutepios brasileirosinseridos na bacia
D_URBMuacuteltiplos de
graus
Cotas topograacuteficas nabacia pelo lado
brasileiroTOPO m
Cotas topograacuteficasreclassificadas (le 150
m ge 150 m)TOPO_REC 1-2
Distacircncias paraestradas principais(pavimentadas e
federais) brasileirasinseridas na bacia
D_ESTRADAMuacuteltiplos de
graus
Distacircncias para asferrovias brasileirasinseridas na bacia
D_FERROMuacuteltiplos de
graus
Fonte Adaptado de Mendes e Vega (2011)
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados
Fonte Mendes e Vega (2011)
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37
Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute
categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-
ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em
aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e
facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-
mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento
estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas
33 Oacutebito Neonatal
O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias
incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os
sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes
Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias
incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de
neomorto
A mortalidade infantil pode ser considerada um dos melhores indicadores da
qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo
Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo
formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia
ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)
Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130
milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no
periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA
variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de
vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia
Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa
de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et
al 2005)
No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas
apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo
dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo
com as taxas de mortalidade poacutes-neonatal
Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal
teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que
possibilitem identificar os fatores de risco para o oacutebito neonatal
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal
Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-
geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo
consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do
que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos
do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et
al 2011)
A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar
a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer
niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias
separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo
Goldstein (2003)
Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito
neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada
A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em
crianccedilas com menos de 28 dias de vida
Y =
1 ocorrecircncia do oacutebito neonatal
0 natildeo ocorrecircncia do oacutebito neonatal
Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas
satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas
em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar
no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)
tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de
pessoas que moram no mesmo domiciacutelio entre outros
O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil
neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute
importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do
oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de
risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta
a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados
332 Aplicaccedilatildeo Exemplo
Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a
mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos
os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39
De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na
cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de
dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar
os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste
periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos
1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros
A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a
ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo
relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos
de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de
consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e
abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel
dependente foram consideradas estatisticamente significantes
Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-
nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo
varia de 0 a 10 e quanto mais proacuteximo de 10 melhor
Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves
dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4
informa o OR de quatro das variaacuteveis independentes inclusas neste estudo
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo
Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076
Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)
O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo
entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo
Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das
variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos
Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances
iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro
grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo
Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a
variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura
do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40
agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo
(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito
em comparaccedilatildeo agraves crianccedilas a termo
As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de
unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo
de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por
exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave
oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6
Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o
sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator
preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito
34 Consideraccedilotildees Finais
Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido
em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de
creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes
trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser
estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e
um estudo de caso realizado utilizando esta teacutecnica
A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser
usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo
anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo
gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre
o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois
objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees
finais limitaccedilotildees e trabalhos futuros
41
4 Conclusatildeo
O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de
regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de
informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que
ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem
analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que
assumem os valores da variaacutevel dependente
No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo
de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a
muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo
da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo
logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald
satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo
R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado
No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo
logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado
o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso
da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os
resultados obtidos
A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado
neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o
desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente
utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que
atuam com concessatildeo de creacutedito a seus clientes
O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e
o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados
nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo
de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas
Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro
meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja
indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal
caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador
caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo
linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua
A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo
Capiacutetulo 4 Conclusatildeo 42
logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta
de anaacutelise de dados de resposta categoacuterica
Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras
no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi
dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem
dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo
exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar
a regressatildeo logiacutestica com base nesses conceitos
Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo
logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel
eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo
epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios
de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada
um destes grupos entre outras possibilidades
43
Referecircncias
AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12
BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo
de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27
BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel
e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16
BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta
Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27
CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23
CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28
COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27
CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23
CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29
FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31
FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33
GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38
GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp
Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29
Referecircncias 44
HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24
HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27
HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23
JENNINGS D E Judging inference adequacy in logistic regression Journal of the
American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24
KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37
LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33
MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev
Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40
MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27
MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35
MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de
PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20
POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16
RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32
RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de
Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14
TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27
Referecircncias 45
VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila
do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33
ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38
ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37
Capiacutetulo 1 Introduccedilatildeo 13
Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como
eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de
meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes
domiacutenios nos quais esta teacutecnica pode ser aplicada
11 Objetivos
O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como
ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio
de exemplos de aplicaccedilotildees
111 Objetivos Especiacuteficos
Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos
bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos
bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica
bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental
e epidemioloacutegica apontando seus resultados
12 Organizaccedilatildeo do Trabalho
O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2
apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica
a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo
O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito
neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas
aacutereas
Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do
que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado
e as consideraccedilotildees finais
14
2 Regressatildeo Logiacutestica
A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis
em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para
agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam
de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)
Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste
em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado
de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos
preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis
independentes ou explicativas
A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel
dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas
que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel
dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo
1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja
indicando dois possiacuteveis valores ou categorias
A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo
fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica
eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as
variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas
Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias
da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de
determinado evento assim como a influecircncia de cada variaacutevel independente no evento
estudado
Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-
zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais
diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de
voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de
outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados
categoacutericos
Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica
binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico
e quais os testes que avaliam a significatildencia de um modelo estimado
Capiacutetulo 2 Regressatildeo Logiacutestica 15
21 Definiccedilatildeo
A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir
a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores
tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais
variaacuteveis independentes contiacutenuas eou binaacuterias
Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade
de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria
Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio
do sono potencialmente grave em que a pessoa para de respirar por alguns segundos
diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio
mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para
esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele
tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a
ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As
variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica
propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa
prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade
desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo
logiacutestica
O modelo de regressatildeo logiacutestica permite
bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis
independentes que podem ser categoacutericas ou contiacutenuas
Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do
sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos
ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado
seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor
seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de
ter apneia do sono
bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada
aleatoriamente contra a probabilidade do evento natildeo ocorrer
Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia
A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de
um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp
1 minus pque
eacute chamada de chance Assim temos0 750 25
= 3 isto significa que uma pessoa nessas
caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter
Capiacutetulo 2 Regressatildeo Logiacutestica 16
bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria
Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel
peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel
idade natildeo contribui tanto para a eficaacutecia do mesmo
bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma
categoria determinada
A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos
ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio
A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes
casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade
desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da
distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)
Y =
1 se ocorrer sucesso
0 se ocorrerfracasso
A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p
Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma
combinaccedilatildeo linear de variaacuteveis independentes
22 A Funccedilatildeo Logit
Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue
a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave
distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na
regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas
de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma
combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p
Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio
uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar
qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1
A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural
o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21
ln(odds) rArr ln
(
p
1 minus p
)
(21)
Fonte Adaptado de (POWERS XIE 1999)
Capiacutetulo 2 Regressatildeo Logiacutestica 17
Figura 1 ndash Graacutefico da funccedilatildeo logit(p)
Fonte Produzido pelo autor
Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo
vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica
comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =
indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro
desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito
uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste
modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou
inferior a 0
Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo
o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades
satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0
No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas
queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa
da funccedilatildeo logit A partir da equaccedilatildeo(21) temos
logitminus1(α) =1
1 + eminusα=
eα
1 + eα(22)
Adaptado de (MESQUITA 2014)
Capiacutetulo 2 Regressatildeo Logiacutestica 18
α = combinaccedilatildeo linear
No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus
coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y
ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)
Fonte Produzido pelo autor
Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas
90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao
inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y
A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma
parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila
eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x
causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de
mudanccedila de estado da variaacutevel y em funccedilatildeo de x
Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo
entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos
que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento
aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem
sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da
inversa do logit na Figura 2
Capiacutetulo 2 Regressatildeo Logiacutestica 19
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado
Fontelthttpsgooglnwec4Qgt
23 Regressatildeo Logiacutestica Binaacuteria
A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica
em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e
tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens
de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute
dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E
neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por
exemplo
Digamos entatildeo que
g(x) = β0 + β1x1 (23)
Fonte (FIGUEIRA 2006)
seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes
e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada
Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)
ln
(
p
1 minus p
)
= β0 + β1x1
Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p
Pra isso utiliza-se o antilogaritmo
Capiacutetulo 2 Regressatildeo Logiacutestica 20
p
1 minus p= eβ0+β1
Seguindo com o procedimento para isolar p obtemos
p =eβ0+β1x1
1 + eβ0+β1x1
=1
1 + eminus(β0+β1x1)(24)
Fonte Adaptado de (MESQUITA 2014)
A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a
funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade
estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta
equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima
verossimilhanccedila conforme explicado na subseccedilatildeo seguinte
231 Estimando os coeficientes do modelo de regressatildeo
Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1
do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A
partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar
os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que
maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima
verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem
maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra
Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =
π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado
em xi
As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de
verossimilhanccedila eacute
L(β) =nprod
i=1
π(xi)yi [1 minus π(xi)]1minusyi (25)
Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo
log-verossimilhanccedila
l(β) = ln[L(β)] =nsum
i=1
[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)
Capiacutetulo 2 Regressatildeo Logiacutestica 21
O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-
metros (β0 β1)
part ln[L(β)]partβ0
=nsum
i=1
[yi minus π(xi)] (27)
part ln[L(β)]partβ1
=nsum
i=1
xi[yi minus π(xi)] (28)
Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees
(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de
variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa
que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a
sua variaacutevel independente xi
As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar
mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado
que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um
procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente
novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores
ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos
repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila
Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada
por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente
complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos
como SPSS1 SAS2 entre outros
24 Regressatildeo Logiacutestica Muacuteltipla
A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que
a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute
mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a
variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente
eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o
peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo
logiacutestica muacuteltipla
Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa
semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt
Capiacutetulo 2 Regressatildeo Logiacutestica 22
apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo
com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para
o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla
como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria
Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos
considerar este conjunto denotado por X = (x1 x2 xt)
Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para
este conjunto de variaacuteveis eacute definida como
g(x) = β0 + β1x1 + β2x2 + + βtxt (29)
Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo
ln
(
p
1 minus p
)
= β0 + β1x1 + β2x2 + + βtxt (210)
Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-
ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica
muacuteltipla para a probabilidade estimada p
p =eβ0+β1x1+β2x2++βtxt
1 + eβ0+β1x1+β2x2++βtxt
=1
1 + eminus(β0+β1x1+β2x2++βtxt)(211)
A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que
π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis
independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila
eacute obtida como
l(β) =nsum
i=1
[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)
As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas
equaccedilotildees 212 e 213
partl(β)partβ0
=nsum
i=1
yi minusnsum
i=1
πi = 0 (213)
partl(β)partβj
=nsum
i=1
xijyi minusnsum
i=1
xijπi = 0 para j isin 1 t (214)
Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)
πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila
Capiacutetulo 2 Regressatildeo Logiacutestica 23
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das
variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica
para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas
com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes
mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2
de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)
Veremos a seguir cada um deles
251 Teste da Razatildeo de Verossimilhanccedila
Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado
Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila
Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a
β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de
(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo
de verossimilhanccedila eacute expressa da seguinte forma
D = minus2 ln
[
verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado
]
(215)
D = minus2nsum
i=1
[
yi ln
(
πi
yi
)
+ (1 minus yi) ln
(
1 minus πi
1 minus yi
)]
(216)
O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado
corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D
tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o
ajuste do modelo
Queremos testar as hipoacuteteses
H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0
Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados
a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese
alternativa H1
Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de
D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela
inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de
G = D
(
modelo sem a variaacutevelmodelo com a variaacutevel
)
(217)
Capiacutetulo 2 Regressatildeo Logiacutestica 24
Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-
tiva para o modelo
252 Teste de Wald
O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da
significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-
tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada
variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel
dependente
Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-
los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do
objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou
no grupo da natildeo ocorrecircncia do evento (Y = 0)
O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de
um coeficiente e a estimativa do seu erro padratildeo
Wj =βj
var(βj)(218)
Fonte (BATISTA 2015)
Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA
2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos
ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo
quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de
Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado
253 Pseudo R2 de Cox e Snell
A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de
um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo
logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo
linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica
onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato
de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa
similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2
Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive
citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor
Capiacutetulo 2 Regressatildeo Logiacutestica 25
em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a
regressatildeo linear
Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um
dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na
equaccedilatildeo 217
R2 = 1 minus
(
L(β)0
L(β)M
)
2n (219)
Fonte (BATISTA 2015)
Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para
um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A
racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que
depende da probabilidade assumida pelos modelos com e sem preditores
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell
Fonte FIGUEIRA (2006)
O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute
menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente
De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-
dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No
exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40
Este mecanismo pode ser usado para comparar o desempenho de modelos concor-
rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais
elevado
26 Consideraccedilotildees Finais
Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de
dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente
dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de
Capiacutetulo 2 Regressatildeo Logiacutestica 26
variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta
teacutecnica
O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo
de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo
entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam
nos coeficientes que compotildeem o modelo
Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se
que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de
avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos
com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da
regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo
27
3 Aplicaccedilotildees de Regressatildeo Logiacutestica
Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela
primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras
aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias
Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica
ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou
o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este
trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos
envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede
Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de
regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer
e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo
para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria
administraccedilatildeo educaccedilatildeo ambiental e outros
Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de
regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de
creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente
31 Gestatildeo de creacutedito
Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute
muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu
reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou
pagamentos afirma Batista (2015)
Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou
retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de
creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado
atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade
destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante
miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e
concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo
estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento
em relaccedilatildeo agrave pontualidade e regularidade dos mesmos
A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando
no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28
eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)
311 Risco de creacutedito
No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma
transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras
lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito
O simples ato de emprestar uma quantia ou algum item a alguem envolve a
possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza
que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo
entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do
devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso
A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa
gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de
insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)
Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do
creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada
empresa
312 Regressatildeo logiacutestica para anaacutelise de creacutedito
Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de
modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes
para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo
com Gouvecirca Gonccedilalves e Mantovani (2013)
Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-
ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da
instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos
Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de
decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar
ganhos financeiros para a instituiccedilatildeo
A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por
exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade
e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees
qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de
pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam
classificar um perfil de adimplecircncia ou inadimplecircncia
Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29
passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos
90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real
Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit
scoring (CROOK EDELMAN THOMAS 2007)
A seguir veremos os passos para se construir um modelo de credit scoring utilizando
a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)
1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com
base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade
desta base de dados para resultar em um modelo de sucesso
2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da
variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem
variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se
aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente
bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo
devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica
3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute
sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente
neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes
devido agrave diferenccedila de tamanho
4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios
estatiacutesticos cada variaacutevel a ser utilizada no modelo
5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e
das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica
a fim de obter o modelo de regressatildeo
Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado
como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel
dependente binaacuteria Y pode assumir os valores
Y =
1 bom cliente
0 mau cliente
A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes
mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica
de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo
logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30
probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um
mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de
um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03
Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis
independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria
ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das
parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras
Destaca-se portanto que cada estudo oferece um resultado particular pois depende do
que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e
da poliacutetica de cada instituiccedilatildeo
Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito
pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia
aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a
cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado
obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e
consequentemente a perda do creacutedito
313 Aplicaccedilatildeo Exemplo
A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um
modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os
dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso
e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no
municiacutepio de Viccedilosa-MG
De acordo com os referidos autores a base amostral deste estudo foi composta
pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes
legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia
das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos
atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema
fornecido pela agecircncia bancaacuteria em estudo
A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos
clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que
tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise
de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de
relacionamento com o banco a renda o limite do cheque especial o estado civil e a
escolaridade
Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2
divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31
clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino
meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para
poacutes-graduccedilatildeo ou acima disto
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo
Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336
Fonte Adaptado de Ferreira Celso e Neto (2012)
Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos
atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na
Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados
Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento
de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste
cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1
representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na
equaccedilatildeo 31
p =1
1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)
Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e
Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que
clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores
observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e
maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo
agrave inadimplecircncia
32 Anaacutelise ambiental
O homem tem usado e modificado o solo haacute milhares de anos a fim de seu
proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura
urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender
a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32
Fatores como o crescimento populacional e a alta demanda por alimentos e outros
recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas
de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma
das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos
diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma
Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do
homem
Figura 5 ndash Componentes da mudanccedila ambiental global
Fonte VALENCIA (2008)
Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de
km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto
isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e
Foley (1999 apud VALENCIA 2008)
Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza
O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos
naturais dele para a realizaccedilatildeo das mesmas
A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas
do uso do solo
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33
bull Cobertura de solo
A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas
bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo
Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros
bull Uso do solo
O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo
Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem
do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso
do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas
executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo
com FAO (1998 apud VALENCIA 2008)
Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes
usos de solo podem ser realizados em uma mesma cobertura de solo assim como
diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como
mostrado na Tabela 2
Tabela 2 ndash Uso e Cobertura do solo
Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte
Fonte VALENCIA (2008)
bull Mudanccedilas do uso do solo
O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as
mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais
simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou
reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do
solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do
solo pode mudar mesmo se mantendo inalterado seu uso
Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas
de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do
solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente
relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers
(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34
uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras
agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade
a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades
humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes
no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os
dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por
sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra
321 Regressatildeo logiacutestica na anaacutelise ambiental
Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um
conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em
condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo
Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se
como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que
mais contribuem para a ocorrecircncia destas mudanccedilas
O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para
avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma
determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y
denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem
uso agriacutecola
Y =
1 aacutereas com uso agriacutecola
0 aacutereas sem uso agriacutecola
A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre
estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel
tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso
agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das
variaacuteveis independentes a serem consideradas na anaacutelise
A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem
de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados
ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por
exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute
encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes
Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)
que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo
meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35
devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites
florestais entre outros
A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma
aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis
independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo
(natildeo agriacutecola para agriacutecola)
322 Aplicaccedilatildeo Exemplo
O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia
Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo
de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este
estudo foi realizado por Mendes e Vega (2011)
Para a base amostral deste estudo o autor considerou imagens da BAP correspon-
dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a
gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou
aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-
pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a
transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os
pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000
Fonte Mendes e Vega (2011)
Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36
agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto
X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram
incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa
significacircncia para o modelo
A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico
com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de
regressatildeo logiacutestica pode ser observado na Figura 7
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico
Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia
anualTMA oC
Balanccedilo hiacutedricoclimaacutetico meacutedio anual
BHC mmano
Distacircncias para assedes urbanas de
municiacutepios brasileirosinseridos na bacia
D_URBMuacuteltiplos de
graus
Cotas topograacuteficas nabacia pelo lado
brasileiroTOPO m
Cotas topograacuteficasreclassificadas (le 150
m ge 150 m)TOPO_REC 1-2
Distacircncias paraestradas principais(pavimentadas e
federais) brasileirasinseridas na bacia
D_ESTRADAMuacuteltiplos de
graus
Distacircncias para asferrovias brasileirasinseridas na bacia
D_FERROMuacuteltiplos de
graus
Fonte Adaptado de Mendes e Vega (2011)
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados
Fonte Mendes e Vega (2011)
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37
Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute
categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-
ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em
aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e
facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-
mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento
estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas
33 Oacutebito Neonatal
O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias
incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os
sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes
Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias
incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de
neomorto
A mortalidade infantil pode ser considerada um dos melhores indicadores da
qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo
Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo
formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia
ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)
Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130
milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no
periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA
variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de
vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia
Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa
de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et
al 2005)
No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas
apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo
dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo
com as taxas de mortalidade poacutes-neonatal
Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal
teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que
possibilitem identificar os fatores de risco para o oacutebito neonatal
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal
Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-
geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo
consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do
que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos
do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et
al 2011)
A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar
a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer
niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias
separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo
Goldstein (2003)
Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito
neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada
A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em
crianccedilas com menos de 28 dias de vida
Y =
1 ocorrecircncia do oacutebito neonatal
0 natildeo ocorrecircncia do oacutebito neonatal
Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas
satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas
em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar
no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)
tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de
pessoas que moram no mesmo domiciacutelio entre outros
O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil
neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute
importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do
oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de
risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta
a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados
332 Aplicaccedilatildeo Exemplo
Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a
mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos
os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39
De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na
cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de
dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar
os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste
periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos
1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros
A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a
ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo
relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos
de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de
consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e
abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel
dependente foram consideradas estatisticamente significantes
Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-
nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo
varia de 0 a 10 e quanto mais proacuteximo de 10 melhor
Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves
dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4
informa o OR de quatro das variaacuteveis independentes inclusas neste estudo
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo
Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076
Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)
O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo
entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo
Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das
variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos
Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances
iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro
grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo
Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a
variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura
do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40
agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo
(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito
em comparaccedilatildeo agraves crianccedilas a termo
As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de
unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo
de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por
exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave
oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6
Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o
sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator
preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito
34 Consideraccedilotildees Finais
Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido
em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de
creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes
trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser
estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e
um estudo de caso realizado utilizando esta teacutecnica
A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser
usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo
anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo
gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre
o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois
objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees
finais limitaccedilotildees e trabalhos futuros
41
4 Conclusatildeo
O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de
regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de
informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que
ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem
analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que
assumem os valores da variaacutevel dependente
No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo
de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a
muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo
da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo
logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald
satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo
R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado
No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo
logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado
o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso
da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os
resultados obtidos
A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado
neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o
desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente
utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que
atuam com concessatildeo de creacutedito a seus clientes
O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e
o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados
nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo
de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas
Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro
meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja
indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal
caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador
caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo
linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua
A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo
Capiacutetulo 4 Conclusatildeo 42
logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta
de anaacutelise de dados de resposta categoacuterica
Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras
no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi
dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem
dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo
exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar
a regressatildeo logiacutestica com base nesses conceitos
Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo
logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel
eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo
epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios
de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada
um destes grupos entre outras possibilidades
43
Referecircncias
AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12
BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo
de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27
BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel
e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16
BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta
Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27
CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23
CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28
COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27
CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23
CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29
FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31
FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33
GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38
GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp
Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29
Referecircncias 44
HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24
HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27
HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23
JENNINGS D E Judging inference adequacy in logistic regression Journal of the
American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24
KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37
LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33
MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev
Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40
MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27
MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35
MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de
PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20
POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16
RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32
RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de
Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14
TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27
Referecircncias 45
VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila
do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33
ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38
ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37
14
2 Regressatildeo Logiacutestica
A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis
em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para
agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam
de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)
Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste
em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado
de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos
preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis
independentes ou explicativas
A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel
dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas
que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel
dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo
1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja
indicando dois possiacuteveis valores ou categorias
A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo
fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica
eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as
variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas
Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias
da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de
determinado evento assim como a influecircncia de cada variaacutevel independente no evento
estudado
Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-
zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais
diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de
voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de
outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados
categoacutericos
Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica
binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico
e quais os testes que avaliam a significatildencia de um modelo estimado
Capiacutetulo 2 Regressatildeo Logiacutestica 15
21 Definiccedilatildeo
A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir
a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores
tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais
variaacuteveis independentes contiacutenuas eou binaacuterias
Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade
de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria
Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio
do sono potencialmente grave em que a pessoa para de respirar por alguns segundos
diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio
mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para
esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele
tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a
ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As
variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica
propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa
prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade
desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo
logiacutestica
O modelo de regressatildeo logiacutestica permite
bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis
independentes que podem ser categoacutericas ou contiacutenuas
Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do
sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos
ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado
seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor
seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de
ter apneia do sono
bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada
aleatoriamente contra a probabilidade do evento natildeo ocorrer
Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia
A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de
um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp
1 minus pque
eacute chamada de chance Assim temos0 750 25
= 3 isto significa que uma pessoa nessas
caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter
Capiacutetulo 2 Regressatildeo Logiacutestica 16
bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria
Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel
peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel
idade natildeo contribui tanto para a eficaacutecia do mesmo
bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma
categoria determinada
A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos
ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio
A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes
casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade
desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da
distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)
Y =
1 se ocorrer sucesso
0 se ocorrerfracasso
A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p
Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma
combinaccedilatildeo linear de variaacuteveis independentes
22 A Funccedilatildeo Logit
Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue
a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave
distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na
regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas
de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma
combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p
Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio
uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar
qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1
A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural
o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21
ln(odds) rArr ln
(
p
1 minus p
)
(21)
Fonte Adaptado de (POWERS XIE 1999)
Capiacutetulo 2 Regressatildeo Logiacutestica 17
Figura 1 ndash Graacutefico da funccedilatildeo logit(p)
Fonte Produzido pelo autor
Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo
vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica
comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =
indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro
desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito
uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste
modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou
inferior a 0
Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo
o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades
satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0
No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas
queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa
da funccedilatildeo logit A partir da equaccedilatildeo(21) temos
logitminus1(α) =1
1 + eminusα=
eα
1 + eα(22)
Adaptado de (MESQUITA 2014)
Capiacutetulo 2 Regressatildeo Logiacutestica 18
α = combinaccedilatildeo linear
No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus
coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y
ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)
Fonte Produzido pelo autor
Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas
90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao
inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y
A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma
parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila
eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x
causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de
mudanccedila de estado da variaacutevel y em funccedilatildeo de x
Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo
entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos
que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento
aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem
sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da
inversa do logit na Figura 2
Capiacutetulo 2 Regressatildeo Logiacutestica 19
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado
Fontelthttpsgooglnwec4Qgt
23 Regressatildeo Logiacutestica Binaacuteria
A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica
em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e
tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens
de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute
dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E
neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por
exemplo
Digamos entatildeo que
g(x) = β0 + β1x1 (23)
Fonte (FIGUEIRA 2006)
seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes
e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada
Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)
ln
(
p
1 minus p
)
= β0 + β1x1
Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p
Pra isso utiliza-se o antilogaritmo
Capiacutetulo 2 Regressatildeo Logiacutestica 20
p
1 minus p= eβ0+β1
Seguindo com o procedimento para isolar p obtemos
p =eβ0+β1x1
1 + eβ0+β1x1
=1
1 + eminus(β0+β1x1)(24)
Fonte Adaptado de (MESQUITA 2014)
A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a
funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade
estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta
equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima
verossimilhanccedila conforme explicado na subseccedilatildeo seguinte
231 Estimando os coeficientes do modelo de regressatildeo
Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1
do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A
partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar
os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que
maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima
verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem
maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra
Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =
π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado
em xi
As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de
verossimilhanccedila eacute
L(β) =nprod
i=1
π(xi)yi [1 minus π(xi)]1minusyi (25)
Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo
log-verossimilhanccedila
l(β) = ln[L(β)] =nsum
i=1
[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)
Capiacutetulo 2 Regressatildeo Logiacutestica 21
O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-
metros (β0 β1)
part ln[L(β)]partβ0
=nsum
i=1
[yi minus π(xi)] (27)
part ln[L(β)]partβ1
=nsum
i=1
xi[yi minus π(xi)] (28)
Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees
(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de
variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa
que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a
sua variaacutevel independente xi
As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar
mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado
que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um
procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente
novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores
ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos
repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila
Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada
por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente
complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos
como SPSS1 SAS2 entre outros
24 Regressatildeo Logiacutestica Muacuteltipla
A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que
a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute
mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a
variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente
eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o
peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo
logiacutestica muacuteltipla
Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa
semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt
Capiacutetulo 2 Regressatildeo Logiacutestica 22
apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo
com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para
o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla
como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria
Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos
considerar este conjunto denotado por X = (x1 x2 xt)
Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para
este conjunto de variaacuteveis eacute definida como
g(x) = β0 + β1x1 + β2x2 + + βtxt (29)
Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo
ln
(
p
1 minus p
)
= β0 + β1x1 + β2x2 + + βtxt (210)
Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-
ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica
muacuteltipla para a probabilidade estimada p
p =eβ0+β1x1+β2x2++βtxt
1 + eβ0+β1x1+β2x2++βtxt
=1
1 + eminus(β0+β1x1+β2x2++βtxt)(211)
A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que
π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis
independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila
eacute obtida como
l(β) =nsum
i=1
[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)
As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas
equaccedilotildees 212 e 213
partl(β)partβ0
=nsum
i=1
yi minusnsum
i=1
πi = 0 (213)
partl(β)partβj
=nsum
i=1
xijyi minusnsum
i=1
xijπi = 0 para j isin 1 t (214)
Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)
πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila
Capiacutetulo 2 Regressatildeo Logiacutestica 23
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das
variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica
para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas
com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes
mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2
de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)
Veremos a seguir cada um deles
251 Teste da Razatildeo de Verossimilhanccedila
Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado
Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila
Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a
β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de
(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo
de verossimilhanccedila eacute expressa da seguinte forma
D = minus2 ln
[
verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado
]
(215)
D = minus2nsum
i=1
[
yi ln
(
πi
yi
)
+ (1 minus yi) ln
(
1 minus πi
1 minus yi
)]
(216)
O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado
corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D
tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o
ajuste do modelo
Queremos testar as hipoacuteteses
H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0
Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados
a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese
alternativa H1
Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de
D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela
inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de
G = D
(
modelo sem a variaacutevelmodelo com a variaacutevel
)
(217)
Capiacutetulo 2 Regressatildeo Logiacutestica 24
Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-
tiva para o modelo
252 Teste de Wald
O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da
significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-
tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada
variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel
dependente
Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-
los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do
objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou
no grupo da natildeo ocorrecircncia do evento (Y = 0)
O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de
um coeficiente e a estimativa do seu erro padratildeo
Wj =βj
var(βj)(218)
Fonte (BATISTA 2015)
Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA
2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos
ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo
quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de
Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado
253 Pseudo R2 de Cox e Snell
A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de
um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo
logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo
linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica
onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato
de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa
similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2
Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive
citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor
Capiacutetulo 2 Regressatildeo Logiacutestica 25
em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a
regressatildeo linear
Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um
dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na
equaccedilatildeo 217
R2 = 1 minus
(
L(β)0
L(β)M
)
2n (219)
Fonte (BATISTA 2015)
Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para
um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A
racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que
depende da probabilidade assumida pelos modelos com e sem preditores
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell
Fonte FIGUEIRA (2006)
O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute
menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente
De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-
dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No
exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40
Este mecanismo pode ser usado para comparar o desempenho de modelos concor-
rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais
elevado
26 Consideraccedilotildees Finais
Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de
dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente
dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de
Capiacutetulo 2 Regressatildeo Logiacutestica 26
variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta
teacutecnica
O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo
de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo
entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam
nos coeficientes que compotildeem o modelo
Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se
que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de
avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos
com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da
regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo
27
3 Aplicaccedilotildees de Regressatildeo Logiacutestica
Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela
primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras
aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias
Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica
ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou
o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este
trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos
envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede
Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de
regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer
e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo
para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria
administraccedilatildeo educaccedilatildeo ambiental e outros
Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de
regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de
creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente
31 Gestatildeo de creacutedito
Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute
muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu
reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou
pagamentos afirma Batista (2015)
Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou
retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de
creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado
atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade
destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante
miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e
concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo
estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento
em relaccedilatildeo agrave pontualidade e regularidade dos mesmos
A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando
no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28
eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)
311 Risco de creacutedito
No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma
transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras
lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito
O simples ato de emprestar uma quantia ou algum item a alguem envolve a
possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza
que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo
entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do
devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso
A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa
gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de
insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)
Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do
creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada
empresa
312 Regressatildeo logiacutestica para anaacutelise de creacutedito
Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de
modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes
para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo
com Gouvecirca Gonccedilalves e Mantovani (2013)
Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-
ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da
instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos
Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de
decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar
ganhos financeiros para a instituiccedilatildeo
A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por
exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade
e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees
qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de
pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam
classificar um perfil de adimplecircncia ou inadimplecircncia
Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29
passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos
90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real
Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit
scoring (CROOK EDELMAN THOMAS 2007)
A seguir veremos os passos para se construir um modelo de credit scoring utilizando
a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)
1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com
base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade
desta base de dados para resultar em um modelo de sucesso
2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da
variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem
variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se
aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente
bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo
devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica
3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute
sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente
neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes
devido agrave diferenccedila de tamanho
4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios
estatiacutesticos cada variaacutevel a ser utilizada no modelo
5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e
das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica
a fim de obter o modelo de regressatildeo
Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado
como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel
dependente binaacuteria Y pode assumir os valores
Y =
1 bom cliente
0 mau cliente
A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes
mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica
de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo
logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30
probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um
mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de
um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03
Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis
independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria
ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das
parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras
Destaca-se portanto que cada estudo oferece um resultado particular pois depende do
que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e
da poliacutetica de cada instituiccedilatildeo
Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito
pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia
aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a
cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado
obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e
consequentemente a perda do creacutedito
313 Aplicaccedilatildeo Exemplo
A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um
modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os
dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso
e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no
municiacutepio de Viccedilosa-MG
De acordo com os referidos autores a base amostral deste estudo foi composta
pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes
legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia
das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos
atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema
fornecido pela agecircncia bancaacuteria em estudo
A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos
clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que
tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise
de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de
relacionamento com o banco a renda o limite do cheque especial o estado civil e a
escolaridade
Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2
divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31
clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino
meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para
poacutes-graduccedilatildeo ou acima disto
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo
Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336
Fonte Adaptado de Ferreira Celso e Neto (2012)
Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos
atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na
Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados
Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento
de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste
cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1
representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na
equaccedilatildeo 31
p =1
1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)
Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e
Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que
clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores
observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e
maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo
agrave inadimplecircncia
32 Anaacutelise ambiental
O homem tem usado e modificado o solo haacute milhares de anos a fim de seu
proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura
urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender
a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32
Fatores como o crescimento populacional e a alta demanda por alimentos e outros
recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas
de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma
das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos
diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma
Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do
homem
Figura 5 ndash Componentes da mudanccedila ambiental global
Fonte VALENCIA (2008)
Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de
km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto
isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e
Foley (1999 apud VALENCIA 2008)
Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza
O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos
naturais dele para a realizaccedilatildeo das mesmas
A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas
do uso do solo
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33
bull Cobertura de solo
A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas
bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo
Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros
bull Uso do solo
O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo
Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem
do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso
do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas
executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo
com FAO (1998 apud VALENCIA 2008)
Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes
usos de solo podem ser realizados em uma mesma cobertura de solo assim como
diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como
mostrado na Tabela 2
Tabela 2 ndash Uso e Cobertura do solo
Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte
Fonte VALENCIA (2008)
bull Mudanccedilas do uso do solo
O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as
mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais
simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou
reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do
solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do
solo pode mudar mesmo se mantendo inalterado seu uso
Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas
de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do
solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente
relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers
(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34
uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras
agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade
a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades
humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes
no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os
dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por
sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra
321 Regressatildeo logiacutestica na anaacutelise ambiental
Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um
conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em
condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo
Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se
como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que
mais contribuem para a ocorrecircncia destas mudanccedilas
O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para
avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma
determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y
denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem
uso agriacutecola
Y =
1 aacutereas com uso agriacutecola
0 aacutereas sem uso agriacutecola
A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre
estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel
tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso
agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das
variaacuteveis independentes a serem consideradas na anaacutelise
A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem
de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados
ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por
exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute
encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes
Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)
que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo
meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35
devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites
florestais entre outros
A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma
aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis
independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo
(natildeo agriacutecola para agriacutecola)
322 Aplicaccedilatildeo Exemplo
O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia
Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo
de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este
estudo foi realizado por Mendes e Vega (2011)
Para a base amostral deste estudo o autor considerou imagens da BAP correspon-
dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a
gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou
aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-
pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a
transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os
pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000
Fonte Mendes e Vega (2011)
Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36
agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto
X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram
incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa
significacircncia para o modelo
A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico
com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de
regressatildeo logiacutestica pode ser observado na Figura 7
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico
Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia
anualTMA oC
Balanccedilo hiacutedricoclimaacutetico meacutedio anual
BHC mmano
Distacircncias para assedes urbanas de
municiacutepios brasileirosinseridos na bacia
D_URBMuacuteltiplos de
graus
Cotas topograacuteficas nabacia pelo lado
brasileiroTOPO m
Cotas topograacuteficasreclassificadas (le 150
m ge 150 m)TOPO_REC 1-2
Distacircncias paraestradas principais(pavimentadas e
federais) brasileirasinseridas na bacia
D_ESTRADAMuacuteltiplos de
graus
Distacircncias para asferrovias brasileirasinseridas na bacia
D_FERROMuacuteltiplos de
graus
Fonte Adaptado de Mendes e Vega (2011)
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados
Fonte Mendes e Vega (2011)
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37
Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute
categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-
ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em
aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e
facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-
mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento
estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas
33 Oacutebito Neonatal
O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias
incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os
sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes
Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias
incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de
neomorto
A mortalidade infantil pode ser considerada um dos melhores indicadores da
qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo
Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo
formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia
ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)
Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130
milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no
periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA
variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de
vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia
Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa
de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et
al 2005)
No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas
apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo
dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo
com as taxas de mortalidade poacutes-neonatal
Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal
teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que
possibilitem identificar os fatores de risco para o oacutebito neonatal
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal
Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-
geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo
consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do
que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos
do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et
al 2011)
A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar
a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer
niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias
separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo
Goldstein (2003)
Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito
neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada
A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em
crianccedilas com menos de 28 dias de vida
Y =
1 ocorrecircncia do oacutebito neonatal
0 natildeo ocorrecircncia do oacutebito neonatal
Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas
satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas
em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar
no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)
tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de
pessoas que moram no mesmo domiciacutelio entre outros
O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil
neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute
importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do
oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de
risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta
a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados
332 Aplicaccedilatildeo Exemplo
Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a
mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos
os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39
De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na
cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de
dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar
os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste
periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos
1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros
A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a
ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo
relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos
de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de
consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e
abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel
dependente foram consideradas estatisticamente significantes
Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-
nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo
varia de 0 a 10 e quanto mais proacuteximo de 10 melhor
Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves
dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4
informa o OR de quatro das variaacuteveis independentes inclusas neste estudo
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo
Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076
Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)
O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo
entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo
Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das
variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos
Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances
iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro
grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo
Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a
variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura
do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40
agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo
(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito
em comparaccedilatildeo agraves crianccedilas a termo
As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de
unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo
de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por
exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave
oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6
Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o
sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator
preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito
34 Consideraccedilotildees Finais
Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido
em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de
creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes
trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser
estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e
um estudo de caso realizado utilizando esta teacutecnica
A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser
usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo
anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo
gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre
o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois
objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees
finais limitaccedilotildees e trabalhos futuros
41
4 Conclusatildeo
O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de
regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de
informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que
ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem
analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que
assumem os valores da variaacutevel dependente
No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo
de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a
muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo
da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo
logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald
satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo
R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado
No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo
logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado
o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso
da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os
resultados obtidos
A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado
neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o
desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente
utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que
atuam com concessatildeo de creacutedito a seus clientes
O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e
o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados
nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo
de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas
Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro
meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja
indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal
caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador
caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo
linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua
A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo
Capiacutetulo 4 Conclusatildeo 42
logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta
de anaacutelise de dados de resposta categoacuterica
Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras
no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi
dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem
dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo
exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar
a regressatildeo logiacutestica com base nesses conceitos
Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo
logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel
eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo
epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios
de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada
um destes grupos entre outras possibilidades
43
Referecircncias
AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12
BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo
de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27
BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel
e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16
BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta
Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27
CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23
CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28
COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27
CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23
CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29
FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31
FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33
GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38
GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp
Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29
Referecircncias 44
HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24
HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27
HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23
JENNINGS D E Judging inference adequacy in logistic regression Journal of the
American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24
KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37
LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33
MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev
Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40
MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27
MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35
MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de
PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20
POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16
RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32
RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de
Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14
TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27
Referecircncias 45
VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila
do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33
ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38
ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37
Capiacutetulo 2 Regressatildeo Logiacutestica 15
21 Definiccedilatildeo
A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir
a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores
tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais
variaacuteveis independentes contiacutenuas eou binaacuterias
Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade
de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria
Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio
do sono potencialmente grave em que a pessoa para de respirar por alguns segundos
diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio
mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para
esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele
tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a
ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As
variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica
propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa
prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade
desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo
logiacutestica
O modelo de regressatildeo logiacutestica permite
bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis
independentes que podem ser categoacutericas ou contiacutenuas
Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do
sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos
ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado
seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor
seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de
ter apneia do sono
bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada
aleatoriamente contra a probabilidade do evento natildeo ocorrer
Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia
A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de
um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp
1 minus pque
eacute chamada de chance Assim temos0 750 25
= 3 isto significa que uma pessoa nessas
caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter
Capiacutetulo 2 Regressatildeo Logiacutestica 16
bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria
Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel
peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel
idade natildeo contribui tanto para a eficaacutecia do mesmo
bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma
categoria determinada
A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos
ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio
A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes
casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade
desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da
distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)
Y =
1 se ocorrer sucesso
0 se ocorrerfracasso
A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p
Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma
combinaccedilatildeo linear de variaacuteveis independentes
22 A Funccedilatildeo Logit
Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue
a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave
distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na
regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas
de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma
combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p
Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio
uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar
qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1
A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural
o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21
ln(odds) rArr ln
(
p
1 minus p
)
(21)
Fonte Adaptado de (POWERS XIE 1999)
Capiacutetulo 2 Regressatildeo Logiacutestica 17
Figura 1 ndash Graacutefico da funccedilatildeo logit(p)
Fonte Produzido pelo autor
Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo
vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica
comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =
indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro
desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito
uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste
modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou
inferior a 0
Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo
o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades
satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0
No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas
queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa
da funccedilatildeo logit A partir da equaccedilatildeo(21) temos
logitminus1(α) =1
1 + eminusα=
eα
1 + eα(22)
Adaptado de (MESQUITA 2014)
Capiacutetulo 2 Regressatildeo Logiacutestica 18
α = combinaccedilatildeo linear
No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus
coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y
ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)
Fonte Produzido pelo autor
Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas
90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao
inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y
A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma
parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila
eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x
causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de
mudanccedila de estado da variaacutevel y em funccedilatildeo de x
Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo
entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos
que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento
aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem
sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da
inversa do logit na Figura 2
Capiacutetulo 2 Regressatildeo Logiacutestica 19
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado
Fontelthttpsgooglnwec4Qgt
23 Regressatildeo Logiacutestica Binaacuteria
A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica
em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e
tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens
de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute
dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E
neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por
exemplo
Digamos entatildeo que
g(x) = β0 + β1x1 (23)
Fonte (FIGUEIRA 2006)
seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes
e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada
Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)
ln
(
p
1 minus p
)
= β0 + β1x1
Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p
Pra isso utiliza-se o antilogaritmo
Capiacutetulo 2 Regressatildeo Logiacutestica 20
p
1 minus p= eβ0+β1
Seguindo com o procedimento para isolar p obtemos
p =eβ0+β1x1
1 + eβ0+β1x1
=1
1 + eminus(β0+β1x1)(24)
Fonte Adaptado de (MESQUITA 2014)
A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a
funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade
estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta
equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima
verossimilhanccedila conforme explicado na subseccedilatildeo seguinte
231 Estimando os coeficientes do modelo de regressatildeo
Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1
do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A
partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar
os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que
maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima
verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem
maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra
Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =
π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado
em xi
As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de
verossimilhanccedila eacute
L(β) =nprod
i=1
π(xi)yi [1 minus π(xi)]1minusyi (25)
Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo
log-verossimilhanccedila
l(β) = ln[L(β)] =nsum
i=1
[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)
Capiacutetulo 2 Regressatildeo Logiacutestica 21
O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-
metros (β0 β1)
part ln[L(β)]partβ0
=nsum
i=1
[yi minus π(xi)] (27)
part ln[L(β)]partβ1
=nsum
i=1
xi[yi minus π(xi)] (28)
Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees
(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de
variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa
que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a
sua variaacutevel independente xi
As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar
mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado
que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um
procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente
novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores
ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos
repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila
Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada
por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente
complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos
como SPSS1 SAS2 entre outros
24 Regressatildeo Logiacutestica Muacuteltipla
A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que
a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute
mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a
variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente
eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o
peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo
logiacutestica muacuteltipla
Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa
semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt
Capiacutetulo 2 Regressatildeo Logiacutestica 22
apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo
com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para
o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla
como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria
Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos
considerar este conjunto denotado por X = (x1 x2 xt)
Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para
este conjunto de variaacuteveis eacute definida como
g(x) = β0 + β1x1 + β2x2 + + βtxt (29)
Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo
ln
(
p
1 minus p
)
= β0 + β1x1 + β2x2 + + βtxt (210)
Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-
ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica
muacuteltipla para a probabilidade estimada p
p =eβ0+β1x1+β2x2++βtxt
1 + eβ0+β1x1+β2x2++βtxt
=1
1 + eminus(β0+β1x1+β2x2++βtxt)(211)
A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que
π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis
independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila
eacute obtida como
l(β) =nsum
i=1
[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)
As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas
equaccedilotildees 212 e 213
partl(β)partβ0
=nsum
i=1
yi minusnsum
i=1
πi = 0 (213)
partl(β)partβj
=nsum
i=1
xijyi minusnsum
i=1
xijπi = 0 para j isin 1 t (214)
Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)
πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila
Capiacutetulo 2 Regressatildeo Logiacutestica 23
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das
variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica
para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas
com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes
mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2
de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)
Veremos a seguir cada um deles
251 Teste da Razatildeo de Verossimilhanccedila
Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado
Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila
Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a
β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de
(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo
de verossimilhanccedila eacute expressa da seguinte forma
D = minus2 ln
[
verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado
]
(215)
D = minus2nsum
i=1
[
yi ln
(
πi
yi
)
+ (1 minus yi) ln
(
1 minus πi
1 minus yi
)]
(216)
O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado
corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D
tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o
ajuste do modelo
Queremos testar as hipoacuteteses
H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0
Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados
a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese
alternativa H1
Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de
D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela
inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de
G = D
(
modelo sem a variaacutevelmodelo com a variaacutevel
)
(217)
Capiacutetulo 2 Regressatildeo Logiacutestica 24
Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-
tiva para o modelo
252 Teste de Wald
O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da
significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-
tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada
variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel
dependente
Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-
los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do
objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou
no grupo da natildeo ocorrecircncia do evento (Y = 0)
O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de
um coeficiente e a estimativa do seu erro padratildeo
Wj =βj
var(βj)(218)
Fonte (BATISTA 2015)
Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA
2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos
ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo
quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de
Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado
253 Pseudo R2 de Cox e Snell
A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de
um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo
logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo
linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica
onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato
de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa
similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2
Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive
citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor
Capiacutetulo 2 Regressatildeo Logiacutestica 25
em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a
regressatildeo linear
Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um
dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na
equaccedilatildeo 217
R2 = 1 minus
(
L(β)0
L(β)M
)
2n (219)
Fonte (BATISTA 2015)
Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para
um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A
racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que
depende da probabilidade assumida pelos modelos com e sem preditores
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell
Fonte FIGUEIRA (2006)
O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute
menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente
De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-
dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No
exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40
Este mecanismo pode ser usado para comparar o desempenho de modelos concor-
rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais
elevado
26 Consideraccedilotildees Finais
Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de
dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente
dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de
Capiacutetulo 2 Regressatildeo Logiacutestica 26
variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta
teacutecnica
O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo
de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo
entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam
nos coeficientes que compotildeem o modelo
Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se
que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de
avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos
com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da
regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo
27
3 Aplicaccedilotildees de Regressatildeo Logiacutestica
Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela
primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras
aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias
Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica
ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou
o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este
trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos
envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede
Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de
regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer
e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo
para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria
administraccedilatildeo educaccedilatildeo ambiental e outros
Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de
regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de
creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente
31 Gestatildeo de creacutedito
Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute
muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu
reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou
pagamentos afirma Batista (2015)
Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou
retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de
creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado
atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade
destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante
miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e
concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo
estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento
em relaccedilatildeo agrave pontualidade e regularidade dos mesmos
A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando
no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28
eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)
311 Risco de creacutedito
No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma
transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras
lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito
O simples ato de emprestar uma quantia ou algum item a alguem envolve a
possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza
que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo
entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do
devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso
A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa
gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de
insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)
Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do
creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada
empresa
312 Regressatildeo logiacutestica para anaacutelise de creacutedito
Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de
modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes
para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo
com Gouvecirca Gonccedilalves e Mantovani (2013)
Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-
ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da
instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos
Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de
decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar
ganhos financeiros para a instituiccedilatildeo
A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por
exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade
e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees
qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de
pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam
classificar um perfil de adimplecircncia ou inadimplecircncia
Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29
passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos
90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real
Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit
scoring (CROOK EDELMAN THOMAS 2007)
A seguir veremos os passos para se construir um modelo de credit scoring utilizando
a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)
1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com
base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade
desta base de dados para resultar em um modelo de sucesso
2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da
variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem
variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se
aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente
bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo
devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica
3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute
sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente
neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes
devido agrave diferenccedila de tamanho
4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios
estatiacutesticos cada variaacutevel a ser utilizada no modelo
5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e
das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica
a fim de obter o modelo de regressatildeo
Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado
como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel
dependente binaacuteria Y pode assumir os valores
Y =
1 bom cliente
0 mau cliente
A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes
mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica
de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo
logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30
probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um
mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de
um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03
Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis
independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria
ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das
parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras
Destaca-se portanto que cada estudo oferece um resultado particular pois depende do
que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e
da poliacutetica de cada instituiccedilatildeo
Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito
pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia
aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a
cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado
obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e
consequentemente a perda do creacutedito
313 Aplicaccedilatildeo Exemplo
A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um
modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os
dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso
e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no
municiacutepio de Viccedilosa-MG
De acordo com os referidos autores a base amostral deste estudo foi composta
pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes
legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia
das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos
atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema
fornecido pela agecircncia bancaacuteria em estudo
A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos
clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que
tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise
de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de
relacionamento com o banco a renda o limite do cheque especial o estado civil e a
escolaridade
Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2
divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31
clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino
meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para
poacutes-graduccedilatildeo ou acima disto
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo
Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336
Fonte Adaptado de Ferreira Celso e Neto (2012)
Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos
atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na
Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados
Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento
de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste
cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1
representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na
equaccedilatildeo 31
p =1
1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)
Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e
Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que
clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores
observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e
maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo
agrave inadimplecircncia
32 Anaacutelise ambiental
O homem tem usado e modificado o solo haacute milhares de anos a fim de seu
proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura
urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender
a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32
Fatores como o crescimento populacional e a alta demanda por alimentos e outros
recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas
de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma
das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos
diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma
Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do
homem
Figura 5 ndash Componentes da mudanccedila ambiental global
Fonte VALENCIA (2008)
Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de
km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto
isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e
Foley (1999 apud VALENCIA 2008)
Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza
O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos
naturais dele para a realizaccedilatildeo das mesmas
A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas
do uso do solo
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33
bull Cobertura de solo
A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas
bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo
Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros
bull Uso do solo
O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo
Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem
do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso
do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas
executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo
com FAO (1998 apud VALENCIA 2008)
Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes
usos de solo podem ser realizados em uma mesma cobertura de solo assim como
diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como
mostrado na Tabela 2
Tabela 2 ndash Uso e Cobertura do solo
Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte
Fonte VALENCIA (2008)
bull Mudanccedilas do uso do solo
O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as
mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais
simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou
reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do
solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do
solo pode mudar mesmo se mantendo inalterado seu uso
Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas
de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do
solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente
relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers
(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34
uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras
agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade
a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades
humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes
no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os
dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por
sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra
321 Regressatildeo logiacutestica na anaacutelise ambiental
Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um
conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em
condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo
Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se
como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que
mais contribuem para a ocorrecircncia destas mudanccedilas
O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para
avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma
determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y
denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem
uso agriacutecola
Y =
1 aacutereas com uso agriacutecola
0 aacutereas sem uso agriacutecola
A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre
estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel
tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso
agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das
variaacuteveis independentes a serem consideradas na anaacutelise
A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem
de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados
ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por
exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute
encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes
Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)
que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo
meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35
devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites
florestais entre outros
A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma
aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis
independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo
(natildeo agriacutecola para agriacutecola)
322 Aplicaccedilatildeo Exemplo
O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia
Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo
de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este
estudo foi realizado por Mendes e Vega (2011)
Para a base amostral deste estudo o autor considerou imagens da BAP correspon-
dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a
gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou
aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-
pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a
transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os
pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000
Fonte Mendes e Vega (2011)
Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36
agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto
X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram
incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa
significacircncia para o modelo
A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico
com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de
regressatildeo logiacutestica pode ser observado na Figura 7
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico
Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia
anualTMA oC
Balanccedilo hiacutedricoclimaacutetico meacutedio anual
BHC mmano
Distacircncias para assedes urbanas de
municiacutepios brasileirosinseridos na bacia
D_URBMuacuteltiplos de
graus
Cotas topograacuteficas nabacia pelo lado
brasileiroTOPO m
Cotas topograacuteficasreclassificadas (le 150
m ge 150 m)TOPO_REC 1-2
Distacircncias paraestradas principais(pavimentadas e
federais) brasileirasinseridas na bacia
D_ESTRADAMuacuteltiplos de
graus
Distacircncias para asferrovias brasileirasinseridas na bacia
D_FERROMuacuteltiplos de
graus
Fonte Adaptado de Mendes e Vega (2011)
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados
Fonte Mendes e Vega (2011)
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37
Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute
categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-
ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em
aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e
facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-
mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento
estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas
33 Oacutebito Neonatal
O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias
incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os
sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes
Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias
incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de
neomorto
A mortalidade infantil pode ser considerada um dos melhores indicadores da
qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo
Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo
formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia
ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)
Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130
milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no
periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA
variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de
vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia
Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa
de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et
al 2005)
No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas
apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo
dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo
com as taxas de mortalidade poacutes-neonatal
Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal
teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que
possibilitem identificar os fatores de risco para o oacutebito neonatal
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal
Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-
geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo
consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do
que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos
do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et
al 2011)
A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar
a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer
niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias
separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo
Goldstein (2003)
Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito
neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada
A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em
crianccedilas com menos de 28 dias de vida
Y =
1 ocorrecircncia do oacutebito neonatal
0 natildeo ocorrecircncia do oacutebito neonatal
Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas
satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas
em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar
no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)
tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de
pessoas que moram no mesmo domiciacutelio entre outros
O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil
neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute
importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do
oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de
risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta
a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados
332 Aplicaccedilatildeo Exemplo
Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a
mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos
os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39
De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na
cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de
dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar
os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste
periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos
1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros
A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a
ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo
relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos
de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de
consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e
abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel
dependente foram consideradas estatisticamente significantes
Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-
nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo
varia de 0 a 10 e quanto mais proacuteximo de 10 melhor
Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves
dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4
informa o OR de quatro das variaacuteveis independentes inclusas neste estudo
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo
Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076
Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)
O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo
entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo
Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das
variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos
Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances
iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro
grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo
Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a
variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura
do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40
agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo
(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito
em comparaccedilatildeo agraves crianccedilas a termo
As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de
unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo
de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por
exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave
oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6
Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o
sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator
preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito
34 Consideraccedilotildees Finais
Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido
em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de
creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes
trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser
estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e
um estudo de caso realizado utilizando esta teacutecnica
A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser
usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo
anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo
gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre
o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois
objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees
finais limitaccedilotildees e trabalhos futuros
41
4 Conclusatildeo
O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de
regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de
informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que
ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem
analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que
assumem os valores da variaacutevel dependente
No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo
de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a
muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo
da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo
logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald
satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo
R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado
No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo
logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado
o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso
da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os
resultados obtidos
A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado
neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o
desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente
utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que
atuam com concessatildeo de creacutedito a seus clientes
O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e
o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados
nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo
de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas
Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro
meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja
indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal
caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador
caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo
linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua
A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo
Capiacutetulo 4 Conclusatildeo 42
logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta
de anaacutelise de dados de resposta categoacuterica
Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras
no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi
dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem
dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo
exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar
a regressatildeo logiacutestica com base nesses conceitos
Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo
logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel
eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo
epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios
de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada
um destes grupos entre outras possibilidades
43
Referecircncias
AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12
BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo
de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27
BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel
e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16
BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta
Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27
CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23
CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28
COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27
CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23
CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29
FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31
FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33
GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38
GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp
Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29
Referecircncias 44
HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24
HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27
HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23
JENNINGS D E Judging inference adequacy in logistic regression Journal of the
American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24
KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37
LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33
MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev
Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40
MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27
MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35
MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de
PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20
POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16
RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32
RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de
Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14
TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27
Referecircncias 45
VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila
do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33
ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38
ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37
Capiacutetulo 2 Regressatildeo Logiacutestica 16
bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria
Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel
peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel
idade natildeo contribui tanto para a eficaacutecia do mesmo
bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma
categoria determinada
A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos
ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio
A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes
casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade
desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da
distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)
Y =
1 se ocorrer sucesso
0 se ocorrerfracasso
A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p
Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma
combinaccedilatildeo linear de variaacuteveis independentes
22 A Funccedilatildeo Logit
Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue
a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave
distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na
regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas
de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma
combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p
Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio
uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar
qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1
A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural
o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21
ln(odds) rArr ln
(
p
1 minus p
)
(21)
Fonte Adaptado de (POWERS XIE 1999)
Capiacutetulo 2 Regressatildeo Logiacutestica 17
Figura 1 ndash Graacutefico da funccedilatildeo logit(p)
Fonte Produzido pelo autor
Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo
vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica
comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =
indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro
desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito
uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste
modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou
inferior a 0
Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo
o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades
satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0
No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas
queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa
da funccedilatildeo logit A partir da equaccedilatildeo(21) temos
logitminus1(α) =1
1 + eminusα=
eα
1 + eα(22)
Adaptado de (MESQUITA 2014)
Capiacutetulo 2 Regressatildeo Logiacutestica 18
α = combinaccedilatildeo linear
No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus
coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y
ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)
Fonte Produzido pelo autor
Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas
90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao
inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y
A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma
parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila
eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x
causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de
mudanccedila de estado da variaacutevel y em funccedilatildeo de x
Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo
entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos
que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento
aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem
sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da
inversa do logit na Figura 2
Capiacutetulo 2 Regressatildeo Logiacutestica 19
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado
Fontelthttpsgooglnwec4Qgt
23 Regressatildeo Logiacutestica Binaacuteria
A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica
em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e
tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens
de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute
dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E
neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por
exemplo
Digamos entatildeo que
g(x) = β0 + β1x1 (23)
Fonte (FIGUEIRA 2006)
seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes
e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada
Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)
ln
(
p
1 minus p
)
= β0 + β1x1
Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p
Pra isso utiliza-se o antilogaritmo
Capiacutetulo 2 Regressatildeo Logiacutestica 20
p
1 minus p= eβ0+β1
Seguindo com o procedimento para isolar p obtemos
p =eβ0+β1x1
1 + eβ0+β1x1
=1
1 + eminus(β0+β1x1)(24)
Fonte Adaptado de (MESQUITA 2014)
A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a
funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade
estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta
equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima
verossimilhanccedila conforme explicado na subseccedilatildeo seguinte
231 Estimando os coeficientes do modelo de regressatildeo
Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1
do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A
partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar
os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que
maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima
verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem
maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra
Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =
π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado
em xi
As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de
verossimilhanccedila eacute
L(β) =nprod
i=1
π(xi)yi [1 minus π(xi)]1minusyi (25)
Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo
log-verossimilhanccedila
l(β) = ln[L(β)] =nsum
i=1
[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)
Capiacutetulo 2 Regressatildeo Logiacutestica 21
O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-
metros (β0 β1)
part ln[L(β)]partβ0
=nsum
i=1
[yi minus π(xi)] (27)
part ln[L(β)]partβ1
=nsum
i=1
xi[yi minus π(xi)] (28)
Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees
(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de
variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa
que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a
sua variaacutevel independente xi
As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar
mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado
que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um
procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente
novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores
ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos
repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila
Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada
por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente
complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos
como SPSS1 SAS2 entre outros
24 Regressatildeo Logiacutestica Muacuteltipla
A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que
a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute
mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a
variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente
eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o
peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo
logiacutestica muacuteltipla
Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa
semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt
Capiacutetulo 2 Regressatildeo Logiacutestica 22
apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo
com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para
o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla
como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria
Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos
considerar este conjunto denotado por X = (x1 x2 xt)
Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para
este conjunto de variaacuteveis eacute definida como
g(x) = β0 + β1x1 + β2x2 + + βtxt (29)
Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo
ln
(
p
1 minus p
)
= β0 + β1x1 + β2x2 + + βtxt (210)
Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-
ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica
muacuteltipla para a probabilidade estimada p
p =eβ0+β1x1+β2x2++βtxt
1 + eβ0+β1x1+β2x2++βtxt
=1
1 + eminus(β0+β1x1+β2x2++βtxt)(211)
A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que
π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis
independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila
eacute obtida como
l(β) =nsum
i=1
[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)
As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas
equaccedilotildees 212 e 213
partl(β)partβ0
=nsum
i=1
yi minusnsum
i=1
πi = 0 (213)
partl(β)partβj
=nsum
i=1
xijyi minusnsum
i=1
xijπi = 0 para j isin 1 t (214)
Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)
πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila
Capiacutetulo 2 Regressatildeo Logiacutestica 23
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das
variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica
para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas
com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes
mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2
de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)
Veremos a seguir cada um deles
251 Teste da Razatildeo de Verossimilhanccedila
Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado
Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila
Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a
β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de
(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo
de verossimilhanccedila eacute expressa da seguinte forma
D = minus2 ln
[
verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado
]
(215)
D = minus2nsum
i=1
[
yi ln
(
πi
yi
)
+ (1 minus yi) ln
(
1 minus πi
1 minus yi
)]
(216)
O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado
corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D
tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o
ajuste do modelo
Queremos testar as hipoacuteteses
H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0
Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados
a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese
alternativa H1
Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de
D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela
inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de
G = D
(
modelo sem a variaacutevelmodelo com a variaacutevel
)
(217)
Capiacutetulo 2 Regressatildeo Logiacutestica 24
Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-
tiva para o modelo
252 Teste de Wald
O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da
significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-
tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada
variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel
dependente
Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-
los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do
objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou
no grupo da natildeo ocorrecircncia do evento (Y = 0)
O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de
um coeficiente e a estimativa do seu erro padratildeo
Wj =βj
var(βj)(218)
Fonte (BATISTA 2015)
Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA
2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos
ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo
quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de
Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado
253 Pseudo R2 de Cox e Snell
A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de
um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo
logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo
linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica
onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato
de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa
similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2
Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive
citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor
Capiacutetulo 2 Regressatildeo Logiacutestica 25
em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a
regressatildeo linear
Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um
dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na
equaccedilatildeo 217
R2 = 1 minus
(
L(β)0
L(β)M
)
2n (219)
Fonte (BATISTA 2015)
Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para
um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A
racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que
depende da probabilidade assumida pelos modelos com e sem preditores
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell
Fonte FIGUEIRA (2006)
O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute
menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente
De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-
dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No
exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40
Este mecanismo pode ser usado para comparar o desempenho de modelos concor-
rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais
elevado
26 Consideraccedilotildees Finais
Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de
dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente
dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de
Capiacutetulo 2 Regressatildeo Logiacutestica 26
variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta
teacutecnica
O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo
de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo
entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam
nos coeficientes que compotildeem o modelo
Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se
que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de
avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos
com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da
regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo
27
3 Aplicaccedilotildees de Regressatildeo Logiacutestica
Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela
primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras
aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias
Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica
ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou
o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este
trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos
envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede
Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de
regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer
e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo
para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria
administraccedilatildeo educaccedilatildeo ambiental e outros
Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de
regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de
creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente
31 Gestatildeo de creacutedito
Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute
muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu
reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou
pagamentos afirma Batista (2015)
Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou
retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de
creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado
atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade
destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante
miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e
concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo
estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento
em relaccedilatildeo agrave pontualidade e regularidade dos mesmos
A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando
no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28
eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)
311 Risco de creacutedito
No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma
transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras
lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito
O simples ato de emprestar uma quantia ou algum item a alguem envolve a
possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza
que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo
entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do
devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso
A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa
gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de
insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)
Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do
creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada
empresa
312 Regressatildeo logiacutestica para anaacutelise de creacutedito
Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de
modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes
para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo
com Gouvecirca Gonccedilalves e Mantovani (2013)
Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-
ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da
instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos
Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de
decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar
ganhos financeiros para a instituiccedilatildeo
A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por
exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade
e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees
qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de
pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam
classificar um perfil de adimplecircncia ou inadimplecircncia
Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29
passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos
90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real
Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit
scoring (CROOK EDELMAN THOMAS 2007)
A seguir veremos os passos para se construir um modelo de credit scoring utilizando
a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)
1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com
base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade
desta base de dados para resultar em um modelo de sucesso
2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da
variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem
variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se
aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente
bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo
devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica
3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute
sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente
neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes
devido agrave diferenccedila de tamanho
4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios
estatiacutesticos cada variaacutevel a ser utilizada no modelo
5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e
das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica
a fim de obter o modelo de regressatildeo
Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado
como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel
dependente binaacuteria Y pode assumir os valores
Y =
1 bom cliente
0 mau cliente
A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes
mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica
de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo
logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30
probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um
mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de
um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03
Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis
independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria
ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das
parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras
Destaca-se portanto que cada estudo oferece um resultado particular pois depende do
que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e
da poliacutetica de cada instituiccedilatildeo
Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito
pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia
aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a
cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado
obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e
consequentemente a perda do creacutedito
313 Aplicaccedilatildeo Exemplo
A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um
modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os
dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso
e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no
municiacutepio de Viccedilosa-MG
De acordo com os referidos autores a base amostral deste estudo foi composta
pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes
legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia
das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos
atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema
fornecido pela agecircncia bancaacuteria em estudo
A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos
clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que
tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise
de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de
relacionamento com o banco a renda o limite do cheque especial o estado civil e a
escolaridade
Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2
divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31
clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino
meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para
poacutes-graduccedilatildeo ou acima disto
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo
Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336
Fonte Adaptado de Ferreira Celso e Neto (2012)
Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos
atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na
Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados
Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento
de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste
cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1
representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na
equaccedilatildeo 31
p =1
1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)
Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e
Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que
clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores
observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e
maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo
agrave inadimplecircncia
32 Anaacutelise ambiental
O homem tem usado e modificado o solo haacute milhares de anos a fim de seu
proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura
urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender
a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32
Fatores como o crescimento populacional e a alta demanda por alimentos e outros
recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas
de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma
das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos
diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma
Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do
homem
Figura 5 ndash Componentes da mudanccedila ambiental global
Fonte VALENCIA (2008)
Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de
km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto
isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e
Foley (1999 apud VALENCIA 2008)
Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza
O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos
naturais dele para a realizaccedilatildeo das mesmas
A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas
do uso do solo
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33
bull Cobertura de solo
A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas
bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo
Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros
bull Uso do solo
O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo
Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem
do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso
do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas
executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo
com FAO (1998 apud VALENCIA 2008)
Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes
usos de solo podem ser realizados em uma mesma cobertura de solo assim como
diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como
mostrado na Tabela 2
Tabela 2 ndash Uso e Cobertura do solo
Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte
Fonte VALENCIA (2008)
bull Mudanccedilas do uso do solo
O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as
mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais
simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou
reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do
solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do
solo pode mudar mesmo se mantendo inalterado seu uso
Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas
de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do
solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente
relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers
(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34
uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras
agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade
a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades
humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes
no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os
dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por
sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra
321 Regressatildeo logiacutestica na anaacutelise ambiental
Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um
conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em
condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo
Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se
como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que
mais contribuem para a ocorrecircncia destas mudanccedilas
O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para
avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma
determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y
denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem
uso agriacutecola
Y =
1 aacutereas com uso agriacutecola
0 aacutereas sem uso agriacutecola
A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre
estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel
tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso
agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das
variaacuteveis independentes a serem consideradas na anaacutelise
A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem
de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados
ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por
exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute
encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes
Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)
que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo
meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35
devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites
florestais entre outros
A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma
aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis
independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo
(natildeo agriacutecola para agriacutecola)
322 Aplicaccedilatildeo Exemplo
O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia
Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo
de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este
estudo foi realizado por Mendes e Vega (2011)
Para a base amostral deste estudo o autor considerou imagens da BAP correspon-
dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a
gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou
aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-
pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a
transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os
pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000
Fonte Mendes e Vega (2011)
Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36
agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto
X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram
incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa
significacircncia para o modelo
A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico
com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de
regressatildeo logiacutestica pode ser observado na Figura 7
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico
Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia
anualTMA oC
Balanccedilo hiacutedricoclimaacutetico meacutedio anual
BHC mmano
Distacircncias para assedes urbanas de
municiacutepios brasileirosinseridos na bacia
D_URBMuacuteltiplos de
graus
Cotas topograacuteficas nabacia pelo lado
brasileiroTOPO m
Cotas topograacuteficasreclassificadas (le 150
m ge 150 m)TOPO_REC 1-2
Distacircncias paraestradas principais(pavimentadas e
federais) brasileirasinseridas na bacia
D_ESTRADAMuacuteltiplos de
graus
Distacircncias para asferrovias brasileirasinseridas na bacia
D_FERROMuacuteltiplos de
graus
Fonte Adaptado de Mendes e Vega (2011)
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados
Fonte Mendes e Vega (2011)
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37
Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute
categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-
ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em
aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e
facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-
mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento
estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas
33 Oacutebito Neonatal
O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias
incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os
sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes
Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias
incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de
neomorto
A mortalidade infantil pode ser considerada um dos melhores indicadores da
qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo
Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo
formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia
ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)
Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130
milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no
periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA
variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de
vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia
Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa
de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et
al 2005)
No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas
apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo
dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo
com as taxas de mortalidade poacutes-neonatal
Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal
teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que
possibilitem identificar os fatores de risco para o oacutebito neonatal
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal
Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-
geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo
consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do
que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos
do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et
al 2011)
A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar
a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer
niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias
separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo
Goldstein (2003)
Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito
neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada
A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em
crianccedilas com menos de 28 dias de vida
Y =
1 ocorrecircncia do oacutebito neonatal
0 natildeo ocorrecircncia do oacutebito neonatal
Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas
satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas
em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar
no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)
tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de
pessoas que moram no mesmo domiciacutelio entre outros
O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil
neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute
importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do
oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de
risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta
a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados
332 Aplicaccedilatildeo Exemplo
Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a
mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos
os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39
De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na
cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de
dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar
os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste
periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos
1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros
A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a
ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo
relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos
de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de
consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e
abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel
dependente foram consideradas estatisticamente significantes
Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-
nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo
varia de 0 a 10 e quanto mais proacuteximo de 10 melhor
Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves
dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4
informa o OR de quatro das variaacuteveis independentes inclusas neste estudo
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo
Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076
Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)
O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo
entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo
Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das
variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos
Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances
iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro
grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo
Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a
variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura
do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40
agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo
(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito
em comparaccedilatildeo agraves crianccedilas a termo
As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de
unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo
de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por
exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave
oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6
Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o
sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator
preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito
34 Consideraccedilotildees Finais
Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido
em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de
creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes
trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser
estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e
um estudo de caso realizado utilizando esta teacutecnica
A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser
usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo
anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo
gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre
o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois
objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees
finais limitaccedilotildees e trabalhos futuros
41
4 Conclusatildeo
O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de
regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de
informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que
ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem
analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que
assumem os valores da variaacutevel dependente
No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo
de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a
muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo
da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo
logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald
satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo
R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado
No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo
logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado
o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso
da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os
resultados obtidos
A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado
neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o
desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente
utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que
atuam com concessatildeo de creacutedito a seus clientes
O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e
o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados
nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo
de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas
Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro
meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja
indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal
caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador
caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo
linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua
A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo
Capiacutetulo 4 Conclusatildeo 42
logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta
de anaacutelise de dados de resposta categoacuterica
Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras
no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi
dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem
dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo
exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar
a regressatildeo logiacutestica com base nesses conceitos
Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo
logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel
eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo
epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios
de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada
um destes grupos entre outras possibilidades
43
Referecircncias
AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12
BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo
de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27
BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel
e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16
BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta
Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27
CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23
CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28
COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27
CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23
CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29
FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31
FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33
GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38
GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp
Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29
Referecircncias 44
HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24
HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27
HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23
JENNINGS D E Judging inference adequacy in logistic regression Journal of the
American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24
KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37
LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33
MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev
Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40
MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27
MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35
MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de
PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20
POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16
RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32
RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de
Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14
TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27
Referecircncias 45
VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila
do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33
ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38
ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37
Capiacutetulo 2 Regressatildeo Logiacutestica 17
Figura 1 ndash Graacutefico da funccedilatildeo logit(p)
Fonte Produzido pelo autor
Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo
vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica
comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =
indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro
desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito
uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste
modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou
inferior a 0
Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo
o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades
satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0
No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas
queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa
da funccedilatildeo logit A partir da equaccedilatildeo(21) temos
logitminus1(α) =1
1 + eminusα=
eα
1 + eα(22)
Adaptado de (MESQUITA 2014)
Capiacutetulo 2 Regressatildeo Logiacutestica 18
α = combinaccedilatildeo linear
No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus
coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y
ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)
Fonte Produzido pelo autor
Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas
90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao
inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y
A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma
parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila
eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x
causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de
mudanccedila de estado da variaacutevel y em funccedilatildeo de x
Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo
entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos
que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento
aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem
sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da
inversa do logit na Figura 2
Capiacutetulo 2 Regressatildeo Logiacutestica 19
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado
Fontelthttpsgooglnwec4Qgt
23 Regressatildeo Logiacutestica Binaacuteria
A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica
em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e
tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens
de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute
dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E
neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por
exemplo
Digamos entatildeo que
g(x) = β0 + β1x1 (23)
Fonte (FIGUEIRA 2006)
seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes
e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada
Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)
ln
(
p
1 minus p
)
= β0 + β1x1
Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p
Pra isso utiliza-se o antilogaritmo
Capiacutetulo 2 Regressatildeo Logiacutestica 20
p
1 minus p= eβ0+β1
Seguindo com o procedimento para isolar p obtemos
p =eβ0+β1x1
1 + eβ0+β1x1
=1
1 + eminus(β0+β1x1)(24)
Fonte Adaptado de (MESQUITA 2014)
A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a
funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade
estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta
equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima
verossimilhanccedila conforme explicado na subseccedilatildeo seguinte
231 Estimando os coeficientes do modelo de regressatildeo
Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1
do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A
partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar
os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que
maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima
verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem
maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra
Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =
π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado
em xi
As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de
verossimilhanccedila eacute
L(β) =nprod
i=1
π(xi)yi [1 minus π(xi)]1minusyi (25)
Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo
log-verossimilhanccedila
l(β) = ln[L(β)] =nsum
i=1
[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)
Capiacutetulo 2 Regressatildeo Logiacutestica 21
O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-
metros (β0 β1)
part ln[L(β)]partβ0
=nsum
i=1
[yi minus π(xi)] (27)
part ln[L(β)]partβ1
=nsum
i=1
xi[yi minus π(xi)] (28)
Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees
(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de
variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa
que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a
sua variaacutevel independente xi
As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar
mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado
que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um
procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente
novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores
ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos
repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila
Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada
por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente
complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos
como SPSS1 SAS2 entre outros
24 Regressatildeo Logiacutestica Muacuteltipla
A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que
a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute
mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a
variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente
eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o
peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo
logiacutestica muacuteltipla
Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa
semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt
Capiacutetulo 2 Regressatildeo Logiacutestica 22
apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo
com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para
o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla
como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria
Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos
considerar este conjunto denotado por X = (x1 x2 xt)
Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para
este conjunto de variaacuteveis eacute definida como
g(x) = β0 + β1x1 + β2x2 + + βtxt (29)
Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo
ln
(
p
1 minus p
)
= β0 + β1x1 + β2x2 + + βtxt (210)
Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-
ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica
muacuteltipla para a probabilidade estimada p
p =eβ0+β1x1+β2x2++βtxt
1 + eβ0+β1x1+β2x2++βtxt
=1
1 + eminus(β0+β1x1+β2x2++βtxt)(211)
A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que
π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis
independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila
eacute obtida como
l(β) =nsum
i=1
[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)
As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas
equaccedilotildees 212 e 213
partl(β)partβ0
=nsum
i=1
yi minusnsum
i=1
πi = 0 (213)
partl(β)partβj
=nsum
i=1
xijyi minusnsum
i=1
xijπi = 0 para j isin 1 t (214)
Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)
πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila
Capiacutetulo 2 Regressatildeo Logiacutestica 23
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das
variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica
para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas
com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes
mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2
de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)
Veremos a seguir cada um deles
251 Teste da Razatildeo de Verossimilhanccedila
Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado
Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila
Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a
β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de
(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo
de verossimilhanccedila eacute expressa da seguinte forma
D = minus2 ln
[
verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado
]
(215)
D = minus2nsum
i=1
[
yi ln
(
πi
yi
)
+ (1 minus yi) ln
(
1 minus πi
1 minus yi
)]
(216)
O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado
corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D
tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o
ajuste do modelo
Queremos testar as hipoacuteteses
H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0
Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados
a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese
alternativa H1
Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de
D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela
inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de
G = D
(
modelo sem a variaacutevelmodelo com a variaacutevel
)
(217)
Capiacutetulo 2 Regressatildeo Logiacutestica 24
Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-
tiva para o modelo
252 Teste de Wald
O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da
significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-
tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada
variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel
dependente
Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-
los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do
objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou
no grupo da natildeo ocorrecircncia do evento (Y = 0)
O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de
um coeficiente e a estimativa do seu erro padratildeo
Wj =βj
var(βj)(218)
Fonte (BATISTA 2015)
Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA
2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos
ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo
quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de
Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado
253 Pseudo R2 de Cox e Snell
A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de
um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo
logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo
linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica
onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato
de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa
similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2
Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive
citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor
Capiacutetulo 2 Regressatildeo Logiacutestica 25
em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a
regressatildeo linear
Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um
dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na
equaccedilatildeo 217
R2 = 1 minus
(
L(β)0
L(β)M
)
2n (219)
Fonte (BATISTA 2015)
Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para
um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A
racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que
depende da probabilidade assumida pelos modelos com e sem preditores
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell
Fonte FIGUEIRA (2006)
O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute
menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente
De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-
dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No
exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40
Este mecanismo pode ser usado para comparar o desempenho de modelos concor-
rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais
elevado
26 Consideraccedilotildees Finais
Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de
dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente
dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de
Capiacutetulo 2 Regressatildeo Logiacutestica 26
variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta
teacutecnica
O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo
de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo
entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam
nos coeficientes que compotildeem o modelo
Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se
que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de
avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos
com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da
regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo
27
3 Aplicaccedilotildees de Regressatildeo Logiacutestica
Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela
primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras
aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias
Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica
ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou
o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este
trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos
envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede
Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de
regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer
e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo
para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria
administraccedilatildeo educaccedilatildeo ambiental e outros
Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de
regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de
creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente
31 Gestatildeo de creacutedito
Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute
muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu
reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou
pagamentos afirma Batista (2015)
Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou
retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de
creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado
atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade
destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante
miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e
concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo
estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento
em relaccedilatildeo agrave pontualidade e regularidade dos mesmos
A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando
no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28
eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)
311 Risco de creacutedito
No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma
transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras
lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito
O simples ato de emprestar uma quantia ou algum item a alguem envolve a
possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza
que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo
entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do
devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso
A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa
gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de
insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)
Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do
creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada
empresa
312 Regressatildeo logiacutestica para anaacutelise de creacutedito
Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de
modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes
para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo
com Gouvecirca Gonccedilalves e Mantovani (2013)
Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-
ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da
instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos
Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de
decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar
ganhos financeiros para a instituiccedilatildeo
A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por
exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade
e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees
qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de
pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam
classificar um perfil de adimplecircncia ou inadimplecircncia
Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29
passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos
90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real
Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit
scoring (CROOK EDELMAN THOMAS 2007)
A seguir veremos os passos para se construir um modelo de credit scoring utilizando
a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)
1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com
base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade
desta base de dados para resultar em um modelo de sucesso
2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da
variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem
variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se
aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente
bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo
devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica
3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute
sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente
neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes
devido agrave diferenccedila de tamanho
4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios
estatiacutesticos cada variaacutevel a ser utilizada no modelo
5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e
das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica
a fim de obter o modelo de regressatildeo
Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado
como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel
dependente binaacuteria Y pode assumir os valores
Y =
1 bom cliente
0 mau cliente
A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes
mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica
de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo
logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30
probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um
mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de
um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03
Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis
independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria
ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das
parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras
Destaca-se portanto que cada estudo oferece um resultado particular pois depende do
que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e
da poliacutetica de cada instituiccedilatildeo
Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito
pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia
aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a
cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado
obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e
consequentemente a perda do creacutedito
313 Aplicaccedilatildeo Exemplo
A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um
modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os
dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso
e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no
municiacutepio de Viccedilosa-MG
De acordo com os referidos autores a base amostral deste estudo foi composta
pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes
legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia
das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos
atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema
fornecido pela agecircncia bancaacuteria em estudo
A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos
clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que
tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise
de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de
relacionamento com o banco a renda o limite do cheque especial o estado civil e a
escolaridade
Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2
divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31
clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino
meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para
poacutes-graduccedilatildeo ou acima disto
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo
Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336
Fonte Adaptado de Ferreira Celso e Neto (2012)
Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos
atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na
Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados
Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento
de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste
cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1
representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na
equaccedilatildeo 31
p =1
1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)
Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e
Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que
clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores
observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e
maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo
agrave inadimplecircncia
32 Anaacutelise ambiental
O homem tem usado e modificado o solo haacute milhares de anos a fim de seu
proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura
urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender
a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32
Fatores como o crescimento populacional e a alta demanda por alimentos e outros
recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas
de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma
das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos
diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma
Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do
homem
Figura 5 ndash Componentes da mudanccedila ambiental global
Fonte VALENCIA (2008)
Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de
km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto
isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e
Foley (1999 apud VALENCIA 2008)
Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza
O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos
naturais dele para a realizaccedilatildeo das mesmas
A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas
do uso do solo
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33
bull Cobertura de solo
A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas
bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo
Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros
bull Uso do solo
O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo
Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem
do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso
do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas
executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo
com FAO (1998 apud VALENCIA 2008)
Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes
usos de solo podem ser realizados em uma mesma cobertura de solo assim como
diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como
mostrado na Tabela 2
Tabela 2 ndash Uso e Cobertura do solo
Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte
Fonte VALENCIA (2008)
bull Mudanccedilas do uso do solo
O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as
mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais
simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou
reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do
solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do
solo pode mudar mesmo se mantendo inalterado seu uso
Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas
de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do
solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente
relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers
(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34
uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras
agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade
a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades
humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes
no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os
dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por
sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra
321 Regressatildeo logiacutestica na anaacutelise ambiental
Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um
conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em
condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo
Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se
como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que
mais contribuem para a ocorrecircncia destas mudanccedilas
O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para
avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma
determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y
denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem
uso agriacutecola
Y =
1 aacutereas com uso agriacutecola
0 aacutereas sem uso agriacutecola
A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre
estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel
tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso
agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das
variaacuteveis independentes a serem consideradas na anaacutelise
A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem
de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados
ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por
exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute
encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes
Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)
que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo
meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35
devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites
florestais entre outros
A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma
aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis
independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo
(natildeo agriacutecola para agriacutecola)
322 Aplicaccedilatildeo Exemplo
O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia
Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo
de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este
estudo foi realizado por Mendes e Vega (2011)
Para a base amostral deste estudo o autor considerou imagens da BAP correspon-
dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a
gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou
aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-
pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a
transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os
pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000
Fonte Mendes e Vega (2011)
Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36
agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto
X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram
incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa
significacircncia para o modelo
A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico
com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de
regressatildeo logiacutestica pode ser observado na Figura 7
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico
Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia
anualTMA oC
Balanccedilo hiacutedricoclimaacutetico meacutedio anual
BHC mmano
Distacircncias para assedes urbanas de
municiacutepios brasileirosinseridos na bacia
D_URBMuacuteltiplos de
graus
Cotas topograacuteficas nabacia pelo lado
brasileiroTOPO m
Cotas topograacuteficasreclassificadas (le 150
m ge 150 m)TOPO_REC 1-2
Distacircncias paraestradas principais(pavimentadas e
federais) brasileirasinseridas na bacia
D_ESTRADAMuacuteltiplos de
graus
Distacircncias para asferrovias brasileirasinseridas na bacia
D_FERROMuacuteltiplos de
graus
Fonte Adaptado de Mendes e Vega (2011)
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados
Fonte Mendes e Vega (2011)
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37
Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute
categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-
ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em
aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e
facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-
mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento
estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas
33 Oacutebito Neonatal
O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias
incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os
sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes
Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias
incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de
neomorto
A mortalidade infantil pode ser considerada um dos melhores indicadores da
qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo
Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo
formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia
ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)
Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130
milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no
periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA
variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de
vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia
Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa
de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et
al 2005)
No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas
apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo
dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo
com as taxas de mortalidade poacutes-neonatal
Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal
teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que
possibilitem identificar os fatores de risco para o oacutebito neonatal
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal
Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-
geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo
consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do
que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos
do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et
al 2011)
A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar
a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer
niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias
separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo
Goldstein (2003)
Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito
neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada
A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em
crianccedilas com menos de 28 dias de vida
Y =
1 ocorrecircncia do oacutebito neonatal
0 natildeo ocorrecircncia do oacutebito neonatal
Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas
satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas
em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar
no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)
tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de
pessoas que moram no mesmo domiciacutelio entre outros
O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil
neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute
importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do
oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de
risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta
a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados
332 Aplicaccedilatildeo Exemplo
Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a
mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos
os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39
De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na
cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de
dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar
os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste
periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos
1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros
A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a
ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo
relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos
de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de
consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e
abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel
dependente foram consideradas estatisticamente significantes
Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-
nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo
varia de 0 a 10 e quanto mais proacuteximo de 10 melhor
Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves
dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4
informa o OR de quatro das variaacuteveis independentes inclusas neste estudo
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo
Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076
Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)
O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo
entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo
Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das
variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos
Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances
iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro
grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo
Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a
variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura
do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40
agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo
(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito
em comparaccedilatildeo agraves crianccedilas a termo
As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de
unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo
de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por
exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave
oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6
Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o
sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator
preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito
34 Consideraccedilotildees Finais
Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido
em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de
creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes
trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser
estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e
um estudo de caso realizado utilizando esta teacutecnica
A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser
usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo
anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo
gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre
o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois
objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees
finais limitaccedilotildees e trabalhos futuros
41
4 Conclusatildeo
O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de
regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de
informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que
ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem
analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que
assumem os valores da variaacutevel dependente
No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo
de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a
muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo
da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo
logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald
satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo
R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado
No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo
logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado
o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso
da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os
resultados obtidos
A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado
neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o
desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente
utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que
atuam com concessatildeo de creacutedito a seus clientes
O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e
o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados
nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo
de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas
Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro
meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja
indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal
caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador
caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo
linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua
A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo
Capiacutetulo 4 Conclusatildeo 42
logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta
de anaacutelise de dados de resposta categoacuterica
Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras
no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi
dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem
dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo
exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar
a regressatildeo logiacutestica com base nesses conceitos
Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo
logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel
eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo
epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios
de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada
um destes grupos entre outras possibilidades
43
Referecircncias
AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12
BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo
de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27
BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel
e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16
BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta
Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27
CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23
CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28
COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27
CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23
CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29
FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31
FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33
GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38
GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp
Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29
Referecircncias 44
HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24
HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27
HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23
JENNINGS D E Judging inference adequacy in logistic regression Journal of the
American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24
KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37
LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33
MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev
Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40
MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27
MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35
MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de
PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20
POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16
RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32
RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de
Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14
TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27
Referecircncias 45
VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila
do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33
ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38
ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37
Capiacutetulo 2 Regressatildeo Logiacutestica 18
α = combinaccedilatildeo linear
No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus
coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y
ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)
Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)
Fonte Produzido pelo autor
Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas
90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao
inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y
A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma
parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila
eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x
causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de
mudanccedila de estado da variaacutevel y em funccedilatildeo de x
Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo
entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos
que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento
aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem
sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da
inversa do logit na Figura 2
Capiacutetulo 2 Regressatildeo Logiacutestica 19
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado
Fontelthttpsgooglnwec4Qgt
23 Regressatildeo Logiacutestica Binaacuteria
A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica
em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e
tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens
de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute
dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E
neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por
exemplo
Digamos entatildeo que
g(x) = β0 + β1x1 (23)
Fonte (FIGUEIRA 2006)
seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes
e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada
Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)
ln
(
p
1 minus p
)
= β0 + β1x1
Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p
Pra isso utiliza-se o antilogaritmo
Capiacutetulo 2 Regressatildeo Logiacutestica 20
p
1 minus p= eβ0+β1
Seguindo com o procedimento para isolar p obtemos
p =eβ0+β1x1
1 + eβ0+β1x1
=1
1 + eminus(β0+β1x1)(24)
Fonte Adaptado de (MESQUITA 2014)
A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a
funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade
estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta
equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima
verossimilhanccedila conforme explicado na subseccedilatildeo seguinte
231 Estimando os coeficientes do modelo de regressatildeo
Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1
do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A
partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar
os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que
maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima
verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem
maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra
Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =
π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado
em xi
As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de
verossimilhanccedila eacute
L(β) =nprod
i=1
π(xi)yi [1 minus π(xi)]1minusyi (25)
Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo
log-verossimilhanccedila
l(β) = ln[L(β)] =nsum
i=1
[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)
Capiacutetulo 2 Regressatildeo Logiacutestica 21
O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-
metros (β0 β1)
part ln[L(β)]partβ0
=nsum
i=1
[yi minus π(xi)] (27)
part ln[L(β)]partβ1
=nsum
i=1
xi[yi minus π(xi)] (28)
Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees
(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de
variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa
que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a
sua variaacutevel independente xi
As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar
mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado
que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um
procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente
novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores
ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos
repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila
Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada
por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente
complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos
como SPSS1 SAS2 entre outros
24 Regressatildeo Logiacutestica Muacuteltipla
A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que
a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute
mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a
variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente
eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o
peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo
logiacutestica muacuteltipla
Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa
semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt
Capiacutetulo 2 Regressatildeo Logiacutestica 22
apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo
com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para
o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla
como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria
Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos
considerar este conjunto denotado por X = (x1 x2 xt)
Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para
este conjunto de variaacuteveis eacute definida como
g(x) = β0 + β1x1 + β2x2 + + βtxt (29)
Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo
ln
(
p
1 minus p
)
= β0 + β1x1 + β2x2 + + βtxt (210)
Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-
ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica
muacuteltipla para a probabilidade estimada p
p =eβ0+β1x1+β2x2++βtxt
1 + eβ0+β1x1+β2x2++βtxt
=1
1 + eminus(β0+β1x1+β2x2++βtxt)(211)
A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que
π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis
independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila
eacute obtida como
l(β) =nsum
i=1
[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)
As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas
equaccedilotildees 212 e 213
partl(β)partβ0
=nsum
i=1
yi minusnsum
i=1
πi = 0 (213)
partl(β)partβj
=nsum
i=1
xijyi minusnsum
i=1
xijπi = 0 para j isin 1 t (214)
Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)
πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila
Capiacutetulo 2 Regressatildeo Logiacutestica 23
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das
variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica
para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas
com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes
mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2
de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)
Veremos a seguir cada um deles
251 Teste da Razatildeo de Verossimilhanccedila
Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado
Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila
Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a
β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de
(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo
de verossimilhanccedila eacute expressa da seguinte forma
D = minus2 ln
[
verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado
]
(215)
D = minus2nsum
i=1
[
yi ln
(
πi
yi
)
+ (1 minus yi) ln
(
1 minus πi
1 minus yi
)]
(216)
O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado
corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D
tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o
ajuste do modelo
Queremos testar as hipoacuteteses
H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0
Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados
a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese
alternativa H1
Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de
D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela
inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de
G = D
(
modelo sem a variaacutevelmodelo com a variaacutevel
)
(217)
Capiacutetulo 2 Regressatildeo Logiacutestica 24
Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-
tiva para o modelo
252 Teste de Wald
O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da
significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-
tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada
variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel
dependente
Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-
los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do
objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou
no grupo da natildeo ocorrecircncia do evento (Y = 0)
O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de
um coeficiente e a estimativa do seu erro padratildeo
Wj =βj
var(βj)(218)
Fonte (BATISTA 2015)
Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA
2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos
ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo
quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de
Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado
253 Pseudo R2 de Cox e Snell
A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de
um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo
logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo
linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica
onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato
de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa
similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2
Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive
citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor
Capiacutetulo 2 Regressatildeo Logiacutestica 25
em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a
regressatildeo linear
Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um
dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na
equaccedilatildeo 217
R2 = 1 minus
(
L(β)0
L(β)M
)
2n (219)
Fonte (BATISTA 2015)
Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para
um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A
racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que
depende da probabilidade assumida pelos modelos com e sem preditores
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell
Fonte FIGUEIRA (2006)
O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute
menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente
De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-
dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No
exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40
Este mecanismo pode ser usado para comparar o desempenho de modelos concor-
rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais
elevado
26 Consideraccedilotildees Finais
Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de
dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente
dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de
Capiacutetulo 2 Regressatildeo Logiacutestica 26
variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta
teacutecnica
O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo
de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo
entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam
nos coeficientes que compotildeem o modelo
Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se
que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de
avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos
com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da
regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo
27
3 Aplicaccedilotildees de Regressatildeo Logiacutestica
Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela
primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras
aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias
Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica
ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou
o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este
trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos
envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede
Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de
regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer
e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo
para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria
administraccedilatildeo educaccedilatildeo ambiental e outros
Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de
regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de
creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente
31 Gestatildeo de creacutedito
Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute
muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu
reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou
pagamentos afirma Batista (2015)
Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou
retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de
creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado
atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade
destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante
miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e
concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo
estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento
em relaccedilatildeo agrave pontualidade e regularidade dos mesmos
A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando
no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28
eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)
311 Risco de creacutedito
No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma
transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras
lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito
O simples ato de emprestar uma quantia ou algum item a alguem envolve a
possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza
que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo
entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do
devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso
A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa
gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de
insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)
Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do
creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada
empresa
312 Regressatildeo logiacutestica para anaacutelise de creacutedito
Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de
modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes
para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo
com Gouvecirca Gonccedilalves e Mantovani (2013)
Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-
ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da
instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos
Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de
decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar
ganhos financeiros para a instituiccedilatildeo
A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por
exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade
e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees
qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de
pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam
classificar um perfil de adimplecircncia ou inadimplecircncia
Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29
passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos
90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real
Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit
scoring (CROOK EDELMAN THOMAS 2007)
A seguir veremos os passos para se construir um modelo de credit scoring utilizando
a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)
1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com
base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade
desta base de dados para resultar em um modelo de sucesso
2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da
variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem
variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se
aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente
bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo
devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica
3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute
sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente
neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes
devido agrave diferenccedila de tamanho
4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios
estatiacutesticos cada variaacutevel a ser utilizada no modelo
5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e
das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica
a fim de obter o modelo de regressatildeo
Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado
como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel
dependente binaacuteria Y pode assumir os valores
Y =
1 bom cliente
0 mau cliente
A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes
mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica
de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo
logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30
probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um
mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de
um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03
Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis
independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria
ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das
parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras
Destaca-se portanto que cada estudo oferece um resultado particular pois depende do
que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e
da poliacutetica de cada instituiccedilatildeo
Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito
pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia
aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a
cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado
obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e
consequentemente a perda do creacutedito
313 Aplicaccedilatildeo Exemplo
A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um
modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os
dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso
e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no
municiacutepio de Viccedilosa-MG
De acordo com os referidos autores a base amostral deste estudo foi composta
pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes
legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia
das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos
atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema
fornecido pela agecircncia bancaacuteria em estudo
A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos
clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que
tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise
de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de
relacionamento com o banco a renda o limite do cheque especial o estado civil e a
escolaridade
Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2
divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31
clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino
meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para
poacutes-graduccedilatildeo ou acima disto
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo
Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336
Fonte Adaptado de Ferreira Celso e Neto (2012)
Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos
atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na
Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados
Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento
de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste
cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1
representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na
equaccedilatildeo 31
p =1
1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)
Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e
Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que
clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores
observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e
maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo
agrave inadimplecircncia
32 Anaacutelise ambiental
O homem tem usado e modificado o solo haacute milhares de anos a fim de seu
proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura
urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender
a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32
Fatores como o crescimento populacional e a alta demanda por alimentos e outros
recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas
de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma
das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos
diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma
Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do
homem
Figura 5 ndash Componentes da mudanccedila ambiental global
Fonte VALENCIA (2008)
Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de
km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto
isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e
Foley (1999 apud VALENCIA 2008)
Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza
O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos
naturais dele para a realizaccedilatildeo das mesmas
A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas
do uso do solo
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33
bull Cobertura de solo
A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas
bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo
Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros
bull Uso do solo
O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo
Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem
do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso
do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas
executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo
com FAO (1998 apud VALENCIA 2008)
Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes
usos de solo podem ser realizados em uma mesma cobertura de solo assim como
diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como
mostrado na Tabela 2
Tabela 2 ndash Uso e Cobertura do solo
Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte
Fonte VALENCIA (2008)
bull Mudanccedilas do uso do solo
O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as
mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais
simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou
reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do
solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do
solo pode mudar mesmo se mantendo inalterado seu uso
Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas
de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do
solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente
relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers
(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34
uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras
agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade
a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades
humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes
no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os
dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por
sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra
321 Regressatildeo logiacutestica na anaacutelise ambiental
Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um
conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em
condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo
Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se
como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que
mais contribuem para a ocorrecircncia destas mudanccedilas
O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para
avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma
determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y
denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem
uso agriacutecola
Y =
1 aacutereas com uso agriacutecola
0 aacutereas sem uso agriacutecola
A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre
estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel
tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso
agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das
variaacuteveis independentes a serem consideradas na anaacutelise
A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem
de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados
ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por
exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute
encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes
Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)
que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo
meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35
devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites
florestais entre outros
A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma
aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis
independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo
(natildeo agriacutecola para agriacutecola)
322 Aplicaccedilatildeo Exemplo
O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia
Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo
de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este
estudo foi realizado por Mendes e Vega (2011)
Para a base amostral deste estudo o autor considerou imagens da BAP correspon-
dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a
gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou
aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-
pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a
transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os
pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000
Fonte Mendes e Vega (2011)
Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36
agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto
X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram
incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa
significacircncia para o modelo
A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico
com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de
regressatildeo logiacutestica pode ser observado na Figura 7
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico
Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia
anualTMA oC
Balanccedilo hiacutedricoclimaacutetico meacutedio anual
BHC mmano
Distacircncias para assedes urbanas de
municiacutepios brasileirosinseridos na bacia
D_URBMuacuteltiplos de
graus
Cotas topograacuteficas nabacia pelo lado
brasileiroTOPO m
Cotas topograacuteficasreclassificadas (le 150
m ge 150 m)TOPO_REC 1-2
Distacircncias paraestradas principais(pavimentadas e
federais) brasileirasinseridas na bacia
D_ESTRADAMuacuteltiplos de
graus
Distacircncias para asferrovias brasileirasinseridas na bacia
D_FERROMuacuteltiplos de
graus
Fonte Adaptado de Mendes e Vega (2011)
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados
Fonte Mendes e Vega (2011)
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37
Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute
categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-
ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em
aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e
facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-
mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento
estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas
33 Oacutebito Neonatal
O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias
incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os
sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes
Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias
incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de
neomorto
A mortalidade infantil pode ser considerada um dos melhores indicadores da
qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo
Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo
formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia
ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)
Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130
milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no
periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA
variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de
vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia
Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa
de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et
al 2005)
No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas
apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo
dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo
com as taxas de mortalidade poacutes-neonatal
Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal
teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que
possibilitem identificar os fatores de risco para o oacutebito neonatal
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal
Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-
geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo
consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do
que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos
do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et
al 2011)
A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar
a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer
niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias
separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo
Goldstein (2003)
Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito
neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada
A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em
crianccedilas com menos de 28 dias de vida
Y =
1 ocorrecircncia do oacutebito neonatal
0 natildeo ocorrecircncia do oacutebito neonatal
Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas
satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas
em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar
no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)
tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de
pessoas que moram no mesmo domiciacutelio entre outros
O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil
neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute
importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do
oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de
risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta
a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados
332 Aplicaccedilatildeo Exemplo
Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a
mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos
os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39
De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na
cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de
dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar
os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste
periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos
1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros
A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a
ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo
relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos
de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de
consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e
abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel
dependente foram consideradas estatisticamente significantes
Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-
nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo
varia de 0 a 10 e quanto mais proacuteximo de 10 melhor
Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves
dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4
informa o OR de quatro das variaacuteveis independentes inclusas neste estudo
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo
Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076
Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)
O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo
entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo
Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das
variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos
Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances
iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro
grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo
Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a
variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura
do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40
agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo
(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito
em comparaccedilatildeo agraves crianccedilas a termo
As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de
unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo
de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por
exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave
oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6
Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o
sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator
preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito
34 Consideraccedilotildees Finais
Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido
em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de
creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes
trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser
estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e
um estudo de caso realizado utilizando esta teacutecnica
A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser
usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo
anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo
gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre
o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois
objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees
finais limitaccedilotildees e trabalhos futuros
41
4 Conclusatildeo
O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de
regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de
informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que
ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem
analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que
assumem os valores da variaacutevel dependente
No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo
de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a
muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo
da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo
logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald
satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo
R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado
No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo
logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado
o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso
da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os
resultados obtidos
A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado
neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o
desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente
utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que
atuam com concessatildeo de creacutedito a seus clientes
O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e
o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados
nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo
de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas
Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro
meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja
indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal
caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador
caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo
linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua
A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo
Capiacutetulo 4 Conclusatildeo 42
logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta
de anaacutelise de dados de resposta categoacuterica
Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras
no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi
dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem
dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo
exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar
a regressatildeo logiacutestica com base nesses conceitos
Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo
logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel
eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo
epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios
de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada
um destes grupos entre outras possibilidades
43
Referecircncias
AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12
BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo
de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27
BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel
e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16
BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta
Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27
CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23
CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28
COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27
CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23
CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29
FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31
FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33
GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38
GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp
Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29
Referecircncias 44
HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24
HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27
HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23
JENNINGS D E Judging inference adequacy in logistic regression Journal of the
American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24
KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37
LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33
MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev
Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40
MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27
MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35
MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de
PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20
POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16
RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32
RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de
Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14
TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27
Referecircncias 45
VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila
do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33
ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38
ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37
Capiacutetulo 2 Regressatildeo Logiacutestica 19
Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado
Fontelthttpsgooglnwec4Qgt
23 Regressatildeo Logiacutestica Binaacuteria
A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica
em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e
tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens
de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute
dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E
neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por
exemplo
Digamos entatildeo que
g(x) = β0 + β1x1 (23)
Fonte (FIGUEIRA 2006)
seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes
e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada
Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)
ln
(
p
1 minus p
)
= β0 + β1x1
Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p
Pra isso utiliza-se o antilogaritmo
Capiacutetulo 2 Regressatildeo Logiacutestica 20
p
1 minus p= eβ0+β1
Seguindo com o procedimento para isolar p obtemos
p =eβ0+β1x1
1 + eβ0+β1x1
=1
1 + eminus(β0+β1x1)(24)
Fonte Adaptado de (MESQUITA 2014)
A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a
funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade
estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta
equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima
verossimilhanccedila conforme explicado na subseccedilatildeo seguinte
231 Estimando os coeficientes do modelo de regressatildeo
Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1
do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A
partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar
os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que
maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima
verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem
maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra
Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =
π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado
em xi
As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de
verossimilhanccedila eacute
L(β) =nprod
i=1
π(xi)yi [1 minus π(xi)]1minusyi (25)
Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo
log-verossimilhanccedila
l(β) = ln[L(β)] =nsum
i=1
[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)
Capiacutetulo 2 Regressatildeo Logiacutestica 21
O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-
metros (β0 β1)
part ln[L(β)]partβ0
=nsum
i=1
[yi minus π(xi)] (27)
part ln[L(β)]partβ1
=nsum
i=1
xi[yi minus π(xi)] (28)
Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees
(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de
variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa
que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a
sua variaacutevel independente xi
As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar
mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado
que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um
procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente
novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores
ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos
repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila
Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada
por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente
complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos
como SPSS1 SAS2 entre outros
24 Regressatildeo Logiacutestica Muacuteltipla
A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que
a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute
mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a
variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente
eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o
peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo
logiacutestica muacuteltipla
Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa
semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt
Capiacutetulo 2 Regressatildeo Logiacutestica 22
apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo
com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para
o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla
como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria
Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos
considerar este conjunto denotado por X = (x1 x2 xt)
Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para
este conjunto de variaacuteveis eacute definida como
g(x) = β0 + β1x1 + β2x2 + + βtxt (29)
Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo
ln
(
p
1 minus p
)
= β0 + β1x1 + β2x2 + + βtxt (210)
Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-
ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica
muacuteltipla para a probabilidade estimada p
p =eβ0+β1x1+β2x2++βtxt
1 + eβ0+β1x1+β2x2++βtxt
=1
1 + eminus(β0+β1x1+β2x2++βtxt)(211)
A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que
π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis
independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila
eacute obtida como
l(β) =nsum
i=1
[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)
As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas
equaccedilotildees 212 e 213
partl(β)partβ0
=nsum
i=1
yi minusnsum
i=1
πi = 0 (213)
partl(β)partβj
=nsum
i=1
xijyi minusnsum
i=1
xijπi = 0 para j isin 1 t (214)
Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)
πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila
Capiacutetulo 2 Regressatildeo Logiacutestica 23
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das
variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica
para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas
com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes
mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2
de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)
Veremos a seguir cada um deles
251 Teste da Razatildeo de Verossimilhanccedila
Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado
Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila
Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a
β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de
(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo
de verossimilhanccedila eacute expressa da seguinte forma
D = minus2 ln
[
verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado
]
(215)
D = minus2nsum
i=1
[
yi ln
(
πi
yi
)
+ (1 minus yi) ln
(
1 minus πi
1 minus yi
)]
(216)
O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado
corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D
tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o
ajuste do modelo
Queremos testar as hipoacuteteses
H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0
Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados
a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese
alternativa H1
Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de
D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela
inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de
G = D
(
modelo sem a variaacutevelmodelo com a variaacutevel
)
(217)
Capiacutetulo 2 Regressatildeo Logiacutestica 24
Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-
tiva para o modelo
252 Teste de Wald
O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da
significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-
tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada
variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel
dependente
Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-
los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do
objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou
no grupo da natildeo ocorrecircncia do evento (Y = 0)
O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de
um coeficiente e a estimativa do seu erro padratildeo
Wj =βj
var(βj)(218)
Fonte (BATISTA 2015)
Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA
2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos
ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo
quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de
Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado
253 Pseudo R2 de Cox e Snell
A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de
um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo
logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo
linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica
onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato
de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa
similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2
Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive
citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor
Capiacutetulo 2 Regressatildeo Logiacutestica 25
em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a
regressatildeo linear
Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um
dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na
equaccedilatildeo 217
R2 = 1 minus
(
L(β)0
L(β)M
)
2n (219)
Fonte (BATISTA 2015)
Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para
um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A
racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que
depende da probabilidade assumida pelos modelos com e sem preditores
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell
Fonte FIGUEIRA (2006)
O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute
menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente
De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-
dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No
exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40
Este mecanismo pode ser usado para comparar o desempenho de modelos concor-
rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais
elevado
26 Consideraccedilotildees Finais
Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de
dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente
dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de
Capiacutetulo 2 Regressatildeo Logiacutestica 26
variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta
teacutecnica
O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo
de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo
entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam
nos coeficientes que compotildeem o modelo
Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se
que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de
avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos
com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da
regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo
27
3 Aplicaccedilotildees de Regressatildeo Logiacutestica
Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela
primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras
aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias
Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica
ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou
o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este
trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos
envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede
Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de
regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer
e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo
para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria
administraccedilatildeo educaccedilatildeo ambiental e outros
Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de
regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de
creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente
31 Gestatildeo de creacutedito
Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute
muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu
reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou
pagamentos afirma Batista (2015)
Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou
retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de
creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado
atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade
destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante
miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e
concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo
estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento
em relaccedilatildeo agrave pontualidade e regularidade dos mesmos
A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando
no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28
eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)
311 Risco de creacutedito
No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma
transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras
lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito
O simples ato de emprestar uma quantia ou algum item a alguem envolve a
possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza
que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo
entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do
devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso
A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa
gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de
insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)
Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do
creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada
empresa
312 Regressatildeo logiacutestica para anaacutelise de creacutedito
Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de
modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes
para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo
com Gouvecirca Gonccedilalves e Mantovani (2013)
Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-
ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da
instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos
Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de
decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar
ganhos financeiros para a instituiccedilatildeo
A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por
exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade
e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees
qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de
pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam
classificar um perfil de adimplecircncia ou inadimplecircncia
Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29
passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos
90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real
Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit
scoring (CROOK EDELMAN THOMAS 2007)
A seguir veremos os passos para se construir um modelo de credit scoring utilizando
a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)
1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com
base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade
desta base de dados para resultar em um modelo de sucesso
2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da
variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem
variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se
aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente
bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo
devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica
3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute
sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente
neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes
devido agrave diferenccedila de tamanho
4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios
estatiacutesticos cada variaacutevel a ser utilizada no modelo
5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e
das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica
a fim de obter o modelo de regressatildeo
Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado
como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel
dependente binaacuteria Y pode assumir os valores
Y =
1 bom cliente
0 mau cliente
A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes
mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica
de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo
logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30
probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um
mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de
um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03
Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis
independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria
ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das
parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras
Destaca-se portanto que cada estudo oferece um resultado particular pois depende do
que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e
da poliacutetica de cada instituiccedilatildeo
Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito
pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia
aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a
cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado
obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e
consequentemente a perda do creacutedito
313 Aplicaccedilatildeo Exemplo
A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um
modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os
dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso
e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no
municiacutepio de Viccedilosa-MG
De acordo com os referidos autores a base amostral deste estudo foi composta
pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes
legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia
das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos
atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema
fornecido pela agecircncia bancaacuteria em estudo
A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos
clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que
tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise
de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de
relacionamento com o banco a renda o limite do cheque especial o estado civil e a
escolaridade
Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2
divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31
clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino
meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para
poacutes-graduccedilatildeo ou acima disto
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo
Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336
Fonte Adaptado de Ferreira Celso e Neto (2012)
Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos
atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na
Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados
Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento
de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste
cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1
representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na
equaccedilatildeo 31
p =1
1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)
Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e
Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que
clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores
observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e
maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo
agrave inadimplecircncia
32 Anaacutelise ambiental
O homem tem usado e modificado o solo haacute milhares de anos a fim de seu
proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura
urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender
a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32
Fatores como o crescimento populacional e a alta demanda por alimentos e outros
recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas
de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma
das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos
diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma
Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do
homem
Figura 5 ndash Componentes da mudanccedila ambiental global
Fonte VALENCIA (2008)
Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de
km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto
isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e
Foley (1999 apud VALENCIA 2008)
Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza
O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos
naturais dele para a realizaccedilatildeo das mesmas
A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas
do uso do solo
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33
bull Cobertura de solo
A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas
bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo
Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros
bull Uso do solo
O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo
Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem
do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso
do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas
executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo
com FAO (1998 apud VALENCIA 2008)
Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes
usos de solo podem ser realizados em uma mesma cobertura de solo assim como
diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como
mostrado na Tabela 2
Tabela 2 ndash Uso e Cobertura do solo
Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte
Fonte VALENCIA (2008)
bull Mudanccedilas do uso do solo
O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as
mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais
simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou
reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do
solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do
solo pode mudar mesmo se mantendo inalterado seu uso
Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas
de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do
solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente
relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers
(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34
uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras
agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade
a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades
humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes
no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os
dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por
sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra
321 Regressatildeo logiacutestica na anaacutelise ambiental
Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um
conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em
condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo
Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se
como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que
mais contribuem para a ocorrecircncia destas mudanccedilas
O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para
avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma
determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y
denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem
uso agriacutecola
Y =
1 aacutereas com uso agriacutecola
0 aacutereas sem uso agriacutecola
A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre
estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel
tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso
agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das
variaacuteveis independentes a serem consideradas na anaacutelise
A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem
de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados
ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por
exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute
encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes
Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)
que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo
meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35
devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites
florestais entre outros
A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma
aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis
independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo
(natildeo agriacutecola para agriacutecola)
322 Aplicaccedilatildeo Exemplo
O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia
Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo
de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este
estudo foi realizado por Mendes e Vega (2011)
Para a base amostral deste estudo o autor considerou imagens da BAP correspon-
dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a
gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou
aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-
pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a
transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os
pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000
Fonte Mendes e Vega (2011)
Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36
agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto
X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram
incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa
significacircncia para o modelo
A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico
com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de
regressatildeo logiacutestica pode ser observado na Figura 7
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico
Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia
anualTMA oC
Balanccedilo hiacutedricoclimaacutetico meacutedio anual
BHC mmano
Distacircncias para assedes urbanas de
municiacutepios brasileirosinseridos na bacia
D_URBMuacuteltiplos de
graus
Cotas topograacuteficas nabacia pelo lado
brasileiroTOPO m
Cotas topograacuteficasreclassificadas (le 150
m ge 150 m)TOPO_REC 1-2
Distacircncias paraestradas principais(pavimentadas e
federais) brasileirasinseridas na bacia
D_ESTRADAMuacuteltiplos de
graus
Distacircncias para asferrovias brasileirasinseridas na bacia
D_FERROMuacuteltiplos de
graus
Fonte Adaptado de Mendes e Vega (2011)
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados
Fonte Mendes e Vega (2011)
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37
Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute
categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-
ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em
aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e
facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-
mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento
estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas
33 Oacutebito Neonatal
O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias
incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os
sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes
Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias
incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de
neomorto
A mortalidade infantil pode ser considerada um dos melhores indicadores da
qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo
Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo
formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia
ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)
Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130
milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no
periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA
variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de
vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia
Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa
de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et
al 2005)
No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas
apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo
dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo
com as taxas de mortalidade poacutes-neonatal
Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal
teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que
possibilitem identificar os fatores de risco para o oacutebito neonatal
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal
Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-
geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo
consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do
que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos
do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et
al 2011)
A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar
a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer
niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias
separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo
Goldstein (2003)
Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito
neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada
A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em
crianccedilas com menos de 28 dias de vida
Y =
1 ocorrecircncia do oacutebito neonatal
0 natildeo ocorrecircncia do oacutebito neonatal
Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas
satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas
em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar
no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)
tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de
pessoas que moram no mesmo domiciacutelio entre outros
O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil
neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute
importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do
oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de
risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta
a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados
332 Aplicaccedilatildeo Exemplo
Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a
mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos
os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39
De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na
cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de
dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar
os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste
periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos
1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros
A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a
ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo
relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos
de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de
consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e
abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel
dependente foram consideradas estatisticamente significantes
Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-
nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo
varia de 0 a 10 e quanto mais proacuteximo de 10 melhor
Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves
dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4
informa o OR de quatro das variaacuteveis independentes inclusas neste estudo
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo
Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076
Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)
O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo
entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo
Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das
variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos
Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances
iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro
grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo
Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a
variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura
do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40
agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo
(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito
em comparaccedilatildeo agraves crianccedilas a termo
As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de
unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo
de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por
exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave
oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6
Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o
sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator
preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito
34 Consideraccedilotildees Finais
Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido
em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de
creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes
trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser
estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e
um estudo de caso realizado utilizando esta teacutecnica
A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser
usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo
anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo
gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre
o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois
objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees
finais limitaccedilotildees e trabalhos futuros
41
4 Conclusatildeo
O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de
regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de
informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que
ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem
analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que
assumem os valores da variaacutevel dependente
No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo
de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a
muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo
da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo
logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald
satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo
R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado
No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo
logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado
o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso
da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os
resultados obtidos
A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado
neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o
desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente
utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que
atuam com concessatildeo de creacutedito a seus clientes
O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e
o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados
nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo
de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas
Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro
meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja
indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal
caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador
caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo
linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua
A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo
Capiacutetulo 4 Conclusatildeo 42
logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta
de anaacutelise de dados de resposta categoacuterica
Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras
no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi
dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem
dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo
exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar
a regressatildeo logiacutestica com base nesses conceitos
Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo
logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel
eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo
epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios
de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada
um destes grupos entre outras possibilidades
43
Referecircncias
AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12
BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo
de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27
BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel
e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16
BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta
Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27
CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23
CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28
COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27
CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23
CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29
FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31
FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33
GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38
GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp
Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29
Referecircncias 44
HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24
HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27
HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23
JENNINGS D E Judging inference adequacy in logistic regression Journal of the
American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24
KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37
LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33
MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev
Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40
MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27
MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35
MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de
PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20
POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16
RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32
RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de
Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14
TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27
Referecircncias 45
VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila
do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33
ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38
ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37
Capiacutetulo 2 Regressatildeo Logiacutestica 20
p
1 minus p= eβ0+β1
Seguindo com o procedimento para isolar p obtemos
p =eβ0+β1x1
1 + eβ0+β1x1
=1
1 + eminus(β0+β1x1)(24)
Fonte Adaptado de (MESQUITA 2014)
A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a
funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade
estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta
equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima
verossimilhanccedila conforme explicado na subseccedilatildeo seguinte
231 Estimando os coeficientes do modelo de regressatildeo
Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1
do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A
partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar
os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que
maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima
verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem
maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra
Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =
π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo
para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado
em xi
As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de
verossimilhanccedila eacute
L(β) =nprod
i=1
π(xi)yi [1 minus π(xi)]1minusyi (25)
Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo
log-verossimilhanccedila
l(β) = ln[L(β)] =nsum
i=1
[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)
Capiacutetulo 2 Regressatildeo Logiacutestica 21
O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-
metros (β0 β1)
part ln[L(β)]partβ0
=nsum
i=1
[yi minus π(xi)] (27)
part ln[L(β)]partβ1
=nsum
i=1
xi[yi minus π(xi)] (28)
Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees
(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de
variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa
que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a
sua variaacutevel independente xi
As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar
mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado
que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um
procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente
novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores
ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos
repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila
Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada
por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente
complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos
como SPSS1 SAS2 entre outros
24 Regressatildeo Logiacutestica Muacuteltipla
A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que
a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute
mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a
variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente
eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o
peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo
logiacutestica muacuteltipla
Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa
semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt
Capiacutetulo 2 Regressatildeo Logiacutestica 22
apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo
com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para
o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla
como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria
Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos
considerar este conjunto denotado por X = (x1 x2 xt)
Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para
este conjunto de variaacuteveis eacute definida como
g(x) = β0 + β1x1 + β2x2 + + βtxt (29)
Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo
ln
(
p
1 minus p
)
= β0 + β1x1 + β2x2 + + βtxt (210)
Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-
ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica
muacuteltipla para a probabilidade estimada p
p =eβ0+β1x1+β2x2++βtxt
1 + eβ0+β1x1+β2x2++βtxt
=1
1 + eminus(β0+β1x1+β2x2++βtxt)(211)
A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que
π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis
independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila
eacute obtida como
l(β) =nsum
i=1
[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)
As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas
equaccedilotildees 212 e 213
partl(β)partβ0
=nsum
i=1
yi minusnsum
i=1
πi = 0 (213)
partl(β)partβj
=nsum
i=1
xijyi minusnsum
i=1
xijπi = 0 para j isin 1 t (214)
Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)
πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila
Capiacutetulo 2 Regressatildeo Logiacutestica 23
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das
variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica
para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas
com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes
mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2
de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)
Veremos a seguir cada um deles
251 Teste da Razatildeo de Verossimilhanccedila
Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado
Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila
Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a
β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de
(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo
de verossimilhanccedila eacute expressa da seguinte forma
D = minus2 ln
[
verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado
]
(215)
D = minus2nsum
i=1
[
yi ln
(
πi
yi
)
+ (1 minus yi) ln
(
1 minus πi
1 minus yi
)]
(216)
O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado
corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D
tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o
ajuste do modelo
Queremos testar as hipoacuteteses
H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0
Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados
a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese
alternativa H1
Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de
D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela
inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de
G = D
(
modelo sem a variaacutevelmodelo com a variaacutevel
)
(217)
Capiacutetulo 2 Regressatildeo Logiacutestica 24
Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-
tiva para o modelo
252 Teste de Wald
O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da
significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-
tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada
variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel
dependente
Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-
los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do
objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou
no grupo da natildeo ocorrecircncia do evento (Y = 0)
O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de
um coeficiente e a estimativa do seu erro padratildeo
Wj =βj
var(βj)(218)
Fonte (BATISTA 2015)
Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA
2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos
ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo
quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de
Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado
253 Pseudo R2 de Cox e Snell
A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de
um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo
logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo
linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica
onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato
de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa
similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2
Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive
citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor
Capiacutetulo 2 Regressatildeo Logiacutestica 25
em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a
regressatildeo linear
Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um
dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na
equaccedilatildeo 217
R2 = 1 minus
(
L(β)0
L(β)M
)
2n (219)
Fonte (BATISTA 2015)
Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para
um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A
racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que
depende da probabilidade assumida pelos modelos com e sem preditores
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell
Fonte FIGUEIRA (2006)
O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute
menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente
De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-
dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No
exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40
Este mecanismo pode ser usado para comparar o desempenho de modelos concor-
rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais
elevado
26 Consideraccedilotildees Finais
Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de
dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente
dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de
Capiacutetulo 2 Regressatildeo Logiacutestica 26
variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta
teacutecnica
O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo
de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo
entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam
nos coeficientes que compotildeem o modelo
Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se
que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de
avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos
com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da
regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo
27
3 Aplicaccedilotildees de Regressatildeo Logiacutestica
Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela
primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras
aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias
Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica
ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou
o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este
trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos
envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede
Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de
regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer
e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo
para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria
administraccedilatildeo educaccedilatildeo ambiental e outros
Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de
regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de
creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente
31 Gestatildeo de creacutedito
Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute
muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu
reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou
pagamentos afirma Batista (2015)
Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou
retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de
creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado
atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade
destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante
miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e
concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo
estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento
em relaccedilatildeo agrave pontualidade e regularidade dos mesmos
A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando
no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28
eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)
311 Risco de creacutedito
No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma
transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras
lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito
O simples ato de emprestar uma quantia ou algum item a alguem envolve a
possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza
que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo
entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do
devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso
A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa
gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de
insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)
Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do
creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada
empresa
312 Regressatildeo logiacutestica para anaacutelise de creacutedito
Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de
modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes
para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo
com Gouvecirca Gonccedilalves e Mantovani (2013)
Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-
ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da
instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos
Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de
decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar
ganhos financeiros para a instituiccedilatildeo
A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por
exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade
e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees
qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de
pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam
classificar um perfil de adimplecircncia ou inadimplecircncia
Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29
passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos
90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real
Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit
scoring (CROOK EDELMAN THOMAS 2007)
A seguir veremos os passos para se construir um modelo de credit scoring utilizando
a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)
1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com
base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade
desta base de dados para resultar em um modelo de sucesso
2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da
variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem
variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se
aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente
bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo
devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica
3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute
sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente
neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes
devido agrave diferenccedila de tamanho
4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios
estatiacutesticos cada variaacutevel a ser utilizada no modelo
5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e
das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica
a fim de obter o modelo de regressatildeo
Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado
como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel
dependente binaacuteria Y pode assumir os valores
Y =
1 bom cliente
0 mau cliente
A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes
mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica
de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo
logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30
probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um
mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de
um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03
Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis
independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria
ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das
parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras
Destaca-se portanto que cada estudo oferece um resultado particular pois depende do
que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e
da poliacutetica de cada instituiccedilatildeo
Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito
pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia
aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a
cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado
obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e
consequentemente a perda do creacutedito
313 Aplicaccedilatildeo Exemplo
A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um
modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os
dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso
e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no
municiacutepio de Viccedilosa-MG
De acordo com os referidos autores a base amostral deste estudo foi composta
pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes
legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia
das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos
atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema
fornecido pela agecircncia bancaacuteria em estudo
A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos
clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que
tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise
de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de
relacionamento com o banco a renda o limite do cheque especial o estado civil e a
escolaridade
Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2
divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31
clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino
meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para
poacutes-graduccedilatildeo ou acima disto
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo
Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336
Fonte Adaptado de Ferreira Celso e Neto (2012)
Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos
atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na
Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados
Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento
de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste
cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1
representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na
equaccedilatildeo 31
p =1
1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)
Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e
Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que
clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores
observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e
maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo
agrave inadimplecircncia
32 Anaacutelise ambiental
O homem tem usado e modificado o solo haacute milhares de anos a fim de seu
proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura
urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender
a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32
Fatores como o crescimento populacional e a alta demanda por alimentos e outros
recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas
de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma
das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos
diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma
Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do
homem
Figura 5 ndash Componentes da mudanccedila ambiental global
Fonte VALENCIA (2008)
Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de
km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto
isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e
Foley (1999 apud VALENCIA 2008)
Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza
O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos
naturais dele para a realizaccedilatildeo das mesmas
A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas
do uso do solo
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33
bull Cobertura de solo
A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas
bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo
Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros
bull Uso do solo
O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo
Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem
do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso
do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas
executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo
com FAO (1998 apud VALENCIA 2008)
Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes
usos de solo podem ser realizados em uma mesma cobertura de solo assim como
diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como
mostrado na Tabela 2
Tabela 2 ndash Uso e Cobertura do solo
Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte
Fonte VALENCIA (2008)
bull Mudanccedilas do uso do solo
O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as
mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais
simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou
reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do
solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do
solo pode mudar mesmo se mantendo inalterado seu uso
Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas
de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do
solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente
relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers
(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34
uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras
agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade
a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades
humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes
no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os
dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por
sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra
321 Regressatildeo logiacutestica na anaacutelise ambiental
Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um
conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em
condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo
Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se
como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que
mais contribuem para a ocorrecircncia destas mudanccedilas
O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para
avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma
determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y
denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem
uso agriacutecola
Y =
1 aacutereas com uso agriacutecola
0 aacutereas sem uso agriacutecola
A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre
estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel
tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso
agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das
variaacuteveis independentes a serem consideradas na anaacutelise
A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem
de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados
ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por
exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute
encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes
Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)
que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo
meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35
devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites
florestais entre outros
A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma
aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis
independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo
(natildeo agriacutecola para agriacutecola)
322 Aplicaccedilatildeo Exemplo
O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia
Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo
de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este
estudo foi realizado por Mendes e Vega (2011)
Para a base amostral deste estudo o autor considerou imagens da BAP correspon-
dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a
gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou
aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-
pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a
transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os
pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000
Fonte Mendes e Vega (2011)
Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36
agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto
X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram
incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa
significacircncia para o modelo
A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico
com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de
regressatildeo logiacutestica pode ser observado na Figura 7
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico
Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia
anualTMA oC
Balanccedilo hiacutedricoclimaacutetico meacutedio anual
BHC mmano
Distacircncias para assedes urbanas de
municiacutepios brasileirosinseridos na bacia
D_URBMuacuteltiplos de
graus
Cotas topograacuteficas nabacia pelo lado
brasileiroTOPO m
Cotas topograacuteficasreclassificadas (le 150
m ge 150 m)TOPO_REC 1-2
Distacircncias paraestradas principais(pavimentadas e
federais) brasileirasinseridas na bacia
D_ESTRADAMuacuteltiplos de
graus
Distacircncias para asferrovias brasileirasinseridas na bacia
D_FERROMuacuteltiplos de
graus
Fonte Adaptado de Mendes e Vega (2011)
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados
Fonte Mendes e Vega (2011)
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37
Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute
categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-
ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em
aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e
facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-
mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento
estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas
33 Oacutebito Neonatal
O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias
incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os
sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes
Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias
incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de
neomorto
A mortalidade infantil pode ser considerada um dos melhores indicadores da
qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo
Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo
formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia
ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)
Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130
milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no
periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA
variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de
vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia
Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa
de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et
al 2005)
No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas
apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo
dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo
com as taxas de mortalidade poacutes-neonatal
Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal
teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que
possibilitem identificar os fatores de risco para o oacutebito neonatal
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal
Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-
geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo
consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do
que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos
do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et
al 2011)
A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar
a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer
niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias
separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo
Goldstein (2003)
Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito
neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada
A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em
crianccedilas com menos de 28 dias de vida
Y =
1 ocorrecircncia do oacutebito neonatal
0 natildeo ocorrecircncia do oacutebito neonatal
Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas
satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas
em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar
no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)
tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de
pessoas que moram no mesmo domiciacutelio entre outros
O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil
neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute
importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do
oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de
risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta
a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados
332 Aplicaccedilatildeo Exemplo
Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a
mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos
os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39
De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na
cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de
dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar
os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste
periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos
1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros
A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a
ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo
relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos
de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de
consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e
abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel
dependente foram consideradas estatisticamente significantes
Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-
nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo
varia de 0 a 10 e quanto mais proacuteximo de 10 melhor
Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves
dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4
informa o OR de quatro das variaacuteveis independentes inclusas neste estudo
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo
Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076
Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)
O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo
entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo
Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das
variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos
Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances
iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro
grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo
Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a
variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura
do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40
agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo
(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito
em comparaccedilatildeo agraves crianccedilas a termo
As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de
unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo
de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por
exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave
oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6
Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o
sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator
preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito
34 Consideraccedilotildees Finais
Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido
em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de
creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes
trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser
estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e
um estudo de caso realizado utilizando esta teacutecnica
A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser
usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo
anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo
gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre
o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois
objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees
finais limitaccedilotildees e trabalhos futuros
41
4 Conclusatildeo
O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de
regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de
informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que
ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem
analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que
assumem os valores da variaacutevel dependente
No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo
de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a
muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo
da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo
logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald
satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo
R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado
No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo
logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado
o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso
da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os
resultados obtidos
A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado
neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o
desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente
utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que
atuam com concessatildeo de creacutedito a seus clientes
O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e
o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados
nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo
de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas
Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro
meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja
indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal
caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador
caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo
linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua
A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo
Capiacutetulo 4 Conclusatildeo 42
logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta
de anaacutelise de dados de resposta categoacuterica
Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras
no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi
dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem
dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo
exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar
a regressatildeo logiacutestica com base nesses conceitos
Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo
logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel
eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo
epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios
de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada
um destes grupos entre outras possibilidades
43
Referecircncias
AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12
BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo
de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27
BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel
e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16
BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta
Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27
CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23
CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28
COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27
CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23
CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29
FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31
FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33
GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38
GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp
Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29
Referecircncias 44
HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24
HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27
HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23
JENNINGS D E Judging inference adequacy in logistic regression Journal of the
American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24
KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37
LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33
MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev
Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40
MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27
MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35
MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de
PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20
POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16
RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32
RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de
Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14
TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27
Referecircncias 45
VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila
do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33
ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38
ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37
Capiacutetulo 2 Regressatildeo Logiacutestica 21
O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-
metros (β0 β1)
part ln[L(β)]partβ0
=nsum
i=1
[yi minus π(xi)] (27)
part ln[L(β)]partβ1
=nsum
i=1
xi[yi minus π(xi)] (28)
Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees
(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de
variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa
que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a
sua variaacutevel independente xi
As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar
mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado
que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um
procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente
novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores
ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos
repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila
Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada
por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente
complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos
como SPSS1 SAS2 entre outros
24 Regressatildeo Logiacutestica Muacuteltipla
A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que
a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute
mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a
variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente
eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o
peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo
logiacutestica muacuteltipla
Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa
semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt
Capiacutetulo 2 Regressatildeo Logiacutestica 22
apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo
com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para
o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla
como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria
Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos
considerar este conjunto denotado por X = (x1 x2 xt)
Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para
este conjunto de variaacuteveis eacute definida como
g(x) = β0 + β1x1 + β2x2 + + βtxt (29)
Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo
ln
(
p
1 minus p
)
= β0 + β1x1 + β2x2 + + βtxt (210)
Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-
ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica
muacuteltipla para a probabilidade estimada p
p =eβ0+β1x1+β2x2++βtxt
1 + eβ0+β1x1+β2x2++βtxt
=1
1 + eminus(β0+β1x1+β2x2++βtxt)(211)
A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que
π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis
independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila
eacute obtida como
l(β) =nsum
i=1
[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)
As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas
equaccedilotildees 212 e 213
partl(β)partβ0
=nsum
i=1
yi minusnsum
i=1
πi = 0 (213)
partl(β)partβj
=nsum
i=1
xijyi minusnsum
i=1
xijπi = 0 para j isin 1 t (214)
Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)
πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila
Capiacutetulo 2 Regressatildeo Logiacutestica 23
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das
variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica
para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas
com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes
mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2
de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)
Veremos a seguir cada um deles
251 Teste da Razatildeo de Verossimilhanccedila
Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado
Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila
Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a
β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de
(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo
de verossimilhanccedila eacute expressa da seguinte forma
D = minus2 ln
[
verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado
]
(215)
D = minus2nsum
i=1
[
yi ln
(
πi
yi
)
+ (1 minus yi) ln
(
1 minus πi
1 minus yi
)]
(216)
O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado
corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D
tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o
ajuste do modelo
Queremos testar as hipoacuteteses
H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0
Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados
a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese
alternativa H1
Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de
D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela
inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de
G = D
(
modelo sem a variaacutevelmodelo com a variaacutevel
)
(217)
Capiacutetulo 2 Regressatildeo Logiacutestica 24
Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-
tiva para o modelo
252 Teste de Wald
O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da
significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-
tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada
variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel
dependente
Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-
los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do
objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou
no grupo da natildeo ocorrecircncia do evento (Y = 0)
O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de
um coeficiente e a estimativa do seu erro padratildeo
Wj =βj
var(βj)(218)
Fonte (BATISTA 2015)
Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA
2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos
ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo
quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de
Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado
253 Pseudo R2 de Cox e Snell
A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de
um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo
logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo
linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica
onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato
de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa
similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2
Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive
citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor
Capiacutetulo 2 Regressatildeo Logiacutestica 25
em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a
regressatildeo linear
Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um
dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na
equaccedilatildeo 217
R2 = 1 minus
(
L(β)0
L(β)M
)
2n (219)
Fonte (BATISTA 2015)
Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para
um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A
racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que
depende da probabilidade assumida pelos modelos com e sem preditores
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell
Fonte FIGUEIRA (2006)
O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute
menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente
De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-
dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No
exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40
Este mecanismo pode ser usado para comparar o desempenho de modelos concor-
rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais
elevado
26 Consideraccedilotildees Finais
Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de
dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente
dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de
Capiacutetulo 2 Regressatildeo Logiacutestica 26
variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta
teacutecnica
O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo
de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo
entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam
nos coeficientes que compotildeem o modelo
Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se
que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de
avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos
com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da
regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo
27
3 Aplicaccedilotildees de Regressatildeo Logiacutestica
Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela
primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras
aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias
Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica
ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou
o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este
trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos
envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede
Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de
regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer
e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo
para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria
administraccedilatildeo educaccedilatildeo ambiental e outros
Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de
regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de
creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente
31 Gestatildeo de creacutedito
Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute
muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu
reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou
pagamentos afirma Batista (2015)
Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou
retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de
creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado
atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade
destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante
miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e
concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo
estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento
em relaccedilatildeo agrave pontualidade e regularidade dos mesmos
A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando
no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28
eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)
311 Risco de creacutedito
No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma
transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras
lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito
O simples ato de emprestar uma quantia ou algum item a alguem envolve a
possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza
que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo
entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do
devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso
A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa
gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de
insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)
Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do
creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada
empresa
312 Regressatildeo logiacutestica para anaacutelise de creacutedito
Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de
modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes
para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo
com Gouvecirca Gonccedilalves e Mantovani (2013)
Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-
ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da
instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos
Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de
decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar
ganhos financeiros para a instituiccedilatildeo
A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por
exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade
e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees
qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de
pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam
classificar um perfil de adimplecircncia ou inadimplecircncia
Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29
passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos
90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real
Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit
scoring (CROOK EDELMAN THOMAS 2007)
A seguir veremos os passos para se construir um modelo de credit scoring utilizando
a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)
1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com
base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade
desta base de dados para resultar em um modelo de sucesso
2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da
variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem
variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se
aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente
bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo
devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica
3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute
sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente
neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes
devido agrave diferenccedila de tamanho
4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios
estatiacutesticos cada variaacutevel a ser utilizada no modelo
5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e
das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica
a fim de obter o modelo de regressatildeo
Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado
como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel
dependente binaacuteria Y pode assumir os valores
Y =
1 bom cliente
0 mau cliente
A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes
mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica
de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo
logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30
probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um
mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de
um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03
Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis
independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria
ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das
parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras
Destaca-se portanto que cada estudo oferece um resultado particular pois depende do
que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e
da poliacutetica de cada instituiccedilatildeo
Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito
pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia
aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a
cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado
obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e
consequentemente a perda do creacutedito
313 Aplicaccedilatildeo Exemplo
A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um
modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os
dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso
e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no
municiacutepio de Viccedilosa-MG
De acordo com os referidos autores a base amostral deste estudo foi composta
pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes
legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia
das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos
atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema
fornecido pela agecircncia bancaacuteria em estudo
A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos
clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que
tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise
de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de
relacionamento com o banco a renda o limite do cheque especial o estado civil e a
escolaridade
Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2
divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31
clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino
meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para
poacutes-graduccedilatildeo ou acima disto
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo
Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336
Fonte Adaptado de Ferreira Celso e Neto (2012)
Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos
atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na
Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados
Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento
de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste
cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1
representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na
equaccedilatildeo 31
p =1
1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)
Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e
Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que
clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores
observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e
maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo
agrave inadimplecircncia
32 Anaacutelise ambiental
O homem tem usado e modificado o solo haacute milhares de anos a fim de seu
proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura
urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender
a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32
Fatores como o crescimento populacional e a alta demanda por alimentos e outros
recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas
de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma
das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos
diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma
Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do
homem
Figura 5 ndash Componentes da mudanccedila ambiental global
Fonte VALENCIA (2008)
Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de
km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto
isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e
Foley (1999 apud VALENCIA 2008)
Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza
O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos
naturais dele para a realizaccedilatildeo das mesmas
A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas
do uso do solo
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33
bull Cobertura de solo
A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas
bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo
Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros
bull Uso do solo
O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo
Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem
do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso
do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas
executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo
com FAO (1998 apud VALENCIA 2008)
Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes
usos de solo podem ser realizados em uma mesma cobertura de solo assim como
diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como
mostrado na Tabela 2
Tabela 2 ndash Uso e Cobertura do solo
Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte
Fonte VALENCIA (2008)
bull Mudanccedilas do uso do solo
O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as
mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais
simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou
reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do
solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do
solo pode mudar mesmo se mantendo inalterado seu uso
Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas
de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do
solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente
relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers
(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34
uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras
agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade
a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades
humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes
no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os
dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por
sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra
321 Regressatildeo logiacutestica na anaacutelise ambiental
Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um
conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em
condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo
Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se
como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que
mais contribuem para a ocorrecircncia destas mudanccedilas
O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para
avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma
determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y
denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem
uso agriacutecola
Y =
1 aacutereas com uso agriacutecola
0 aacutereas sem uso agriacutecola
A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre
estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel
tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso
agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das
variaacuteveis independentes a serem consideradas na anaacutelise
A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem
de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados
ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por
exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute
encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes
Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)
que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo
meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35
devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites
florestais entre outros
A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma
aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis
independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo
(natildeo agriacutecola para agriacutecola)
322 Aplicaccedilatildeo Exemplo
O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia
Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo
de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este
estudo foi realizado por Mendes e Vega (2011)
Para a base amostral deste estudo o autor considerou imagens da BAP correspon-
dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a
gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou
aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-
pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a
transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os
pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000
Fonte Mendes e Vega (2011)
Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36
agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto
X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram
incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa
significacircncia para o modelo
A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico
com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de
regressatildeo logiacutestica pode ser observado na Figura 7
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico
Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia
anualTMA oC
Balanccedilo hiacutedricoclimaacutetico meacutedio anual
BHC mmano
Distacircncias para assedes urbanas de
municiacutepios brasileirosinseridos na bacia
D_URBMuacuteltiplos de
graus
Cotas topograacuteficas nabacia pelo lado
brasileiroTOPO m
Cotas topograacuteficasreclassificadas (le 150
m ge 150 m)TOPO_REC 1-2
Distacircncias paraestradas principais(pavimentadas e
federais) brasileirasinseridas na bacia
D_ESTRADAMuacuteltiplos de
graus
Distacircncias para asferrovias brasileirasinseridas na bacia
D_FERROMuacuteltiplos de
graus
Fonte Adaptado de Mendes e Vega (2011)
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados
Fonte Mendes e Vega (2011)
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37
Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute
categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-
ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em
aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e
facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-
mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento
estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas
33 Oacutebito Neonatal
O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias
incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os
sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes
Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias
incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de
neomorto
A mortalidade infantil pode ser considerada um dos melhores indicadores da
qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo
Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo
formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia
ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)
Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130
milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no
periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA
variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de
vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia
Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa
de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et
al 2005)
No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas
apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo
dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo
com as taxas de mortalidade poacutes-neonatal
Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal
teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que
possibilitem identificar os fatores de risco para o oacutebito neonatal
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal
Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-
geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo
consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do
que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos
do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et
al 2011)
A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar
a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer
niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias
separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo
Goldstein (2003)
Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito
neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada
A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em
crianccedilas com menos de 28 dias de vida
Y =
1 ocorrecircncia do oacutebito neonatal
0 natildeo ocorrecircncia do oacutebito neonatal
Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas
satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas
em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar
no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)
tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de
pessoas que moram no mesmo domiciacutelio entre outros
O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil
neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute
importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do
oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de
risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta
a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados
332 Aplicaccedilatildeo Exemplo
Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a
mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos
os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39
De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na
cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de
dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar
os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste
periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos
1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros
A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a
ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo
relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos
de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de
consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e
abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel
dependente foram consideradas estatisticamente significantes
Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-
nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo
varia de 0 a 10 e quanto mais proacuteximo de 10 melhor
Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves
dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4
informa o OR de quatro das variaacuteveis independentes inclusas neste estudo
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo
Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076
Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)
O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo
entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo
Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das
variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos
Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances
iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro
grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo
Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a
variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura
do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40
agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo
(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito
em comparaccedilatildeo agraves crianccedilas a termo
As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de
unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo
de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por
exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave
oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6
Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o
sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator
preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito
34 Consideraccedilotildees Finais
Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido
em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de
creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes
trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser
estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e
um estudo de caso realizado utilizando esta teacutecnica
A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser
usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo
anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo
gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre
o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois
objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees
finais limitaccedilotildees e trabalhos futuros
41
4 Conclusatildeo
O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de
regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de
informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que
ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem
analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que
assumem os valores da variaacutevel dependente
No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo
de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a
muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo
da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo
logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald
satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo
R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado
No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo
logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado
o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso
da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os
resultados obtidos
A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado
neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o
desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente
utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que
atuam com concessatildeo de creacutedito a seus clientes
O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e
o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados
nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo
de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas
Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro
meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja
indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal
caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador
caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo
linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua
A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo
Capiacutetulo 4 Conclusatildeo 42
logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta
de anaacutelise de dados de resposta categoacuterica
Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras
no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi
dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem
dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo
exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar
a regressatildeo logiacutestica com base nesses conceitos
Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo
logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel
eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo
epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios
de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada
um destes grupos entre outras possibilidades
43
Referecircncias
AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12
BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo
de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27
BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel
e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16
BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta
Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27
CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23
CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28
COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27
CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23
CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29
FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31
FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33
GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38
GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp
Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29
Referecircncias 44
HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24
HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27
HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23
JENNINGS D E Judging inference adequacy in logistic regression Journal of the
American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24
KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37
LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33
MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev
Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40
MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27
MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35
MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de
PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20
POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16
RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32
RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de
Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14
TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27
Referecircncias 45
VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila
do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33
ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38
ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37
Capiacutetulo 2 Regressatildeo Logiacutestica 22
apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo
com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para
o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla
como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria
Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos
considerar este conjunto denotado por X = (x1 x2 xt)
Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para
este conjunto de variaacuteveis eacute definida como
g(x) = β0 + β1x1 + β2x2 + + βtxt (29)
Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo
ln
(
p
1 minus p
)
= β0 + β1x1 + β2x2 + + βtxt (210)
Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-
ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica
muacuteltipla para a probabilidade estimada p
p =eβ0+β1x1+β2x2++βtxt
1 + eβ0+β1x1+β2x2++βtxt
=1
1 + eminus(β0+β1x1+β2x2++βtxt)(211)
A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que
π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis
independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila
eacute obtida como
l(β) =nsum
i=1
[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)
As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas
equaccedilotildees 212 e 213
partl(β)partβ0
=nsum
i=1
yi minusnsum
i=1
πi = 0 (213)
partl(β)partβj
=nsum
i=1
xijyi minusnsum
i=1
xijπi = 0 para j isin 1 t (214)
Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)
πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila
Capiacutetulo 2 Regressatildeo Logiacutestica 23
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das
variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica
para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas
com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes
mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2
de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)
Veremos a seguir cada um deles
251 Teste da Razatildeo de Verossimilhanccedila
Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado
Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila
Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a
β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de
(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo
de verossimilhanccedila eacute expressa da seguinte forma
D = minus2 ln
[
verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado
]
(215)
D = minus2nsum
i=1
[
yi ln
(
πi
yi
)
+ (1 minus yi) ln
(
1 minus πi
1 minus yi
)]
(216)
O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado
corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D
tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o
ajuste do modelo
Queremos testar as hipoacuteteses
H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0
Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados
a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese
alternativa H1
Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de
D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela
inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de
G = D
(
modelo sem a variaacutevelmodelo com a variaacutevel
)
(217)
Capiacutetulo 2 Regressatildeo Logiacutestica 24
Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-
tiva para o modelo
252 Teste de Wald
O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da
significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-
tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada
variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel
dependente
Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-
los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do
objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou
no grupo da natildeo ocorrecircncia do evento (Y = 0)
O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de
um coeficiente e a estimativa do seu erro padratildeo
Wj =βj
var(βj)(218)
Fonte (BATISTA 2015)
Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA
2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos
ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo
quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de
Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado
253 Pseudo R2 de Cox e Snell
A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de
um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo
logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo
linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica
onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato
de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa
similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2
Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive
citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor
Capiacutetulo 2 Regressatildeo Logiacutestica 25
em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a
regressatildeo linear
Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um
dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na
equaccedilatildeo 217
R2 = 1 minus
(
L(β)0
L(β)M
)
2n (219)
Fonte (BATISTA 2015)
Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para
um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A
racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que
depende da probabilidade assumida pelos modelos com e sem preditores
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell
Fonte FIGUEIRA (2006)
O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute
menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente
De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-
dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No
exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40
Este mecanismo pode ser usado para comparar o desempenho de modelos concor-
rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais
elevado
26 Consideraccedilotildees Finais
Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de
dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente
dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de
Capiacutetulo 2 Regressatildeo Logiacutestica 26
variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta
teacutecnica
O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo
de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo
entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam
nos coeficientes que compotildeem o modelo
Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se
que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de
avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos
com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da
regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo
27
3 Aplicaccedilotildees de Regressatildeo Logiacutestica
Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela
primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras
aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias
Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica
ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou
o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este
trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos
envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede
Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de
regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer
e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo
para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria
administraccedilatildeo educaccedilatildeo ambiental e outros
Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de
regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de
creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente
31 Gestatildeo de creacutedito
Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute
muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu
reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou
pagamentos afirma Batista (2015)
Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou
retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de
creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado
atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade
destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante
miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e
concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo
estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento
em relaccedilatildeo agrave pontualidade e regularidade dos mesmos
A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando
no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28
eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)
311 Risco de creacutedito
No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma
transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras
lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito
O simples ato de emprestar uma quantia ou algum item a alguem envolve a
possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza
que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo
entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do
devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso
A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa
gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de
insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)
Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do
creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada
empresa
312 Regressatildeo logiacutestica para anaacutelise de creacutedito
Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de
modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes
para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo
com Gouvecirca Gonccedilalves e Mantovani (2013)
Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-
ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da
instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos
Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de
decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar
ganhos financeiros para a instituiccedilatildeo
A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por
exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade
e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees
qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de
pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam
classificar um perfil de adimplecircncia ou inadimplecircncia
Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29
passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos
90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real
Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit
scoring (CROOK EDELMAN THOMAS 2007)
A seguir veremos os passos para se construir um modelo de credit scoring utilizando
a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)
1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com
base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade
desta base de dados para resultar em um modelo de sucesso
2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da
variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem
variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se
aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente
bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo
devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica
3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute
sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente
neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes
devido agrave diferenccedila de tamanho
4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios
estatiacutesticos cada variaacutevel a ser utilizada no modelo
5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e
das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica
a fim de obter o modelo de regressatildeo
Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado
como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel
dependente binaacuteria Y pode assumir os valores
Y =
1 bom cliente
0 mau cliente
A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes
mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica
de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo
logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30
probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um
mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de
um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03
Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis
independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria
ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das
parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras
Destaca-se portanto que cada estudo oferece um resultado particular pois depende do
que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e
da poliacutetica de cada instituiccedilatildeo
Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito
pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia
aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a
cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado
obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e
consequentemente a perda do creacutedito
313 Aplicaccedilatildeo Exemplo
A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um
modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os
dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso
e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no
municiacutepio de Viccedilosa-MG
De acordo com os referidos autores a base amostral deste estudo foi composta
pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes
legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia
das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos
atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema
fornecido pela agecircncia bancaacuteria em estudo
A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos
clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que
tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise
de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de
relacionamento com o banco a renda o limite do cheque especial o estado civil e a
escolaridade
Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2
divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31
clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino
meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para
poacutes-graduccedilatildeo ou acima disto
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo
Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336
Fonte Adaptado de Ferreira Celso e Neto (2012)
Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos
atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na
Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados
Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento
de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste
cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1
representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na
equaccedilatildeo 31
p =1
1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)
Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e
Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que
clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores
observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e
maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo
agrave inadimplecircncia
32 Anaacutelise ambiental
O homem tem usado e modificado o solo haacute milhares de anos a fim de seu
proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura
urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender
a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32
Fatores como o crescimento populacional e a alta demanda por alimentos e outros
recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas
de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma
das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos
diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma
Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do
homem
Figura 5 ndash Componentes da mudanccedila ambiental global
Fonte VALENCIA (2008)
Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de
km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto
isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e
Foley (1999 apud VALENCIA 2008)
Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza
O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos
naturais dele para a realizaccedilatildeo das mesmas
A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas
do uso do solo
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33
bull Cobertura de solo
A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas
bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo
Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros
bull Uso do solo
O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo
Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem
do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso
do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas
executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo
com FAO (1998 apud VALENCIA 2008)
Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes
usos de solo podem ser realizados em uma mesma cobertura de solo assim como
diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como
mostrado na Tabela 2
Tabela 2 ndash Uso e Cobertura do solo
Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte
Fonte VALENCIA (2008)
bull Mudanccedilas do uso do solo
O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as
mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais
simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou
reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do
solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do
solo pode mudar mesmo se mantendo inalterado seu uso
Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas
de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do
solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente
relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers
(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34
uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras
agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade
a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades
humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes
no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os
dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por
sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra
321 Regressatildeo logiacutestica na anaacutelise ambiental
Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um
conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em
condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo
Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se
como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que
mais contribuem para a ocorrecircncia destas mudanccedilas
O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para
avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma
determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y
denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem
uso agriacutecola
Y =
1 aacutereas com uso agriacutecola
0 aacutereas sem uso agriacutecola
A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre
estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel
tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso
agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das
variaacuteveis independentes a serem consideradas na anaacutelise
A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem
de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados
ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por
exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute
encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes
Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)
que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo
meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35
devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites
florestais entre outros
A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma
aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis
independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo
(natildeo agriacutecola para agriacutecola)
322 Aplicaccedilatildeo Exemplo
O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia
Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo
de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este
estudo foi realizado por Mendes e Vega (2011)
Para a base amostral deste estudo o autor considerou imagens da BAP correspon-
dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a
gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou
aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-
pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a
transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os
pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000
Fonte Mendes e Vega (2011)
Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36
agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto
X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram
incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa
significacircncia para o modelo
A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico
com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de
regressatildeo logiacutestica pode ser observado na Figura 7
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico
Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia
anualTMA oC
Balanccedilo hiacutedricoclimaacutetico meacutedio anual
BHC mmano
Distacircncias para assedes urbanas de
municiacutepios brasileirosinseridos na bacia
D_URBMuacuteltiplos de
graus
Cotas topograacuteficas nabacia pelo lado
brasileiroTOPO m
Cotas topograacuteficasreclassificadas (le 150
m ge 150 m)TOPO_REC 1-2
Distacircncias paraestradas principais(pavimentadas e
federais) brasileirasinseridas na bacia
D_ESTRADAMuacuteltiplos de
graus
Distacircncias para asferrovias brasileirasinseridas na bacia
D_FERROMuacuteltiplos de
graus
Fonte Adaptado de Mendes e Vega (2011)
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados
Fonte Mendes e Vega (2011)
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37
Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute
categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-
ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em
aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e
facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-
mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento
estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas
33 Oacutebito Neonatal
O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias
incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os
sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes
Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias
incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de
neomorto
A mortalidade infantil pode ser considerada um dos melhores indicadores da
qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo
Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo
formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia
ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)
Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130
milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no
periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA
variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de
vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia
Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa
de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et
al 2005)
No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas
apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo
dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo
com as taxas de mortalidade poacutes-neonatal
Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal
teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que
possibilitem identificar os fatores de risco para o oacutebito neonatal
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal
Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-
geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo
consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do
que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos
do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et
al 2011)
A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar
a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer
niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias
separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo
Goldstein (2003)
Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito
neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada
A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em
crianccedilas com menos de 28 dias de vida
Y =
1 ocorrecircncia do oacutebito neonatal
0 natildeo ocorrecircncia do oacutebito neonatal
Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas
satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas
em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar
no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)
tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de
pessoas que moram no mesmo domiciacutelio entre outros
O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil
neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute
importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do
oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de
risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta
a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados
332 Aplicaccedilatildeo Exemplo
Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a
mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos
os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39
De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na
cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de
dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar
os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste
periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos
1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros
A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a
ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo
relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos
de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de
consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e
abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel
dependente foram consideradas estatisticamente significantes
Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-
nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo
varia de 0 a 10 e quanto mais proacuteximo de 10 melhor
Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves
dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4
informa o OR de quatro das variaacuteveis independentes inclusas neste estudo
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo
Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076
Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)
O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo
entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo
Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das
variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos
Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances
iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro
grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo
Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a
variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura
do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40
agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo
(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito
em comparaccedilatildeo agraves crianccedilas a termo
As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de
unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo
de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por
exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave
oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6
Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o
sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator
preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito
34 Consideraccedilotildees Finais
Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido
em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de
creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes
trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser
estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e
um estudo de caso realizado utilizando esta teacutecnica
A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser
usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo
anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo
gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre
o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois
objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees
finais limitaccedilotildees e trabalhos futuros
41
4 Conclusatildeo
O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de
regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de
informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que
ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem
analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que
assumem os valores da variaacutevel dependente
No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo
de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a
muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo
da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo
logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald
satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo
R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado
No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo
logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado
o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso
da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os
resultados obtidos
A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado
neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o
desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente
utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que
atuam com concessatildeo de creacutedito a seus clientes
O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e
o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados
nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo
de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas
Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro
meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja
indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal
caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador
caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo
linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua
A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo
Capiacutetulo 4 Conclusatildeo 42
logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta
de anaacutelise de dados de resposta categoacuterica
Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras
no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi
dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem
dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo
exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar
a regressatildeo logiacutestica com base nesses conceitos
Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo
logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel
eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo
epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios
de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada
um destes grupos entre outras possibilidades
43
Referecircncias
AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12
BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo
de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27
BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel
e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16
BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta
Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27
CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23
CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28
COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27
CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23
CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29
FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31
FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33
GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38
GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp
Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29
Referecircncias 44
HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24
HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27
HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23
JENNINGS D E Judging inference adequacy in logistic regression Journal of the
American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24
KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37
LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33
MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev
Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40
MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27
MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35
MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de
PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20
POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16
RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32
RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de
Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14
TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27
Referecircncias 45
VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila
do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33
ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38
ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37
Capiacutetulo 2 Regressatildeo Logiacutestica 23
25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das
variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica
para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas
com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes
mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2
de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)
Veremos a seguir cada um deles
251 Teste da Razatildeo de Verossimilhanccedila
Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado
Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila
Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a
β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de
(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo
de verossimilhanccedila eacute expressa da seguinte forma
D = minus2 ln
[
verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado
]
(215)
D = minus2nsum
i=1
[
yi ln
(
πi
yi
)
+ (1 minus yi) ln
(
1 minus πi
1 minus yi
)]
(216)
O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado
corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D
tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o
ajuste do modelo
Queremos testar as hipoacuteteses
H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0
Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados
a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese
alternativa H1
Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de
D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela
inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de
G = D
(
modelo sem a variaacutevelmodelo com a variaacutevel
)
(217)
Capiacutetulo 2 Regressatildeo Logiacutestica 24
Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-
tiva para o modelo
252 Teste de Wald
O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da
significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-
tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada
variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel
dependente
Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-
los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do
objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou
no grupo da natildeo ocorrecircncia do evento (Y = 0)
O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de
um coeficiente e a estimativa do seu erro padratildeo
Wj =βj
var(βj)(218)
Fonte (BATISTA 2015)
Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA
2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos
ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo
quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de
Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado
253 Pseudo R2 de Cox e Snell
A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de
um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo
logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo
linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica
onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato
de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa
similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2
Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive
citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor
Capiacutetulo 2 Regressatildeo Logiacutestica 25
em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a
regressatildeo linear
Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um
dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na
equaccedilatildeo 217
R2 = 1 minus
(
L(β)0
L(β)M
)
2n (219)
Fonte (BATISTA 2015)
Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para
um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A
racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que
depende da probabilidade assumida pelos modelos com e sem preditores
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell
Fonte FIGUEIRA (2006)
O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute
menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente
De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-
dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No
exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40
Este mecanismo pode ser usado para comparar o desempenho de modelos concor-
rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais
elevado
26 Consideraccedilotildees Finais
Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de
dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente
dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de
Capiacutetulo 2 Regressatildeo Logiacutestica 26
variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta
teacutecnica
O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo
de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo
entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam
nos coeficientes que compotildeem o modelo
Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se
que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de
avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos
com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da
regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo
27
3 Aplicaccedilotildees de Regressatildeo Logiacutestica
Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela
primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras
aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias
Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica
ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou
o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este
trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos
envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede
Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de
regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer
e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo
para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria
administraccedilatildeo educaccedilatildeo ambiental e outros
Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de
regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de
creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente
31 Gestatildeo de creacutedito
Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute
muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu
reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou
pagamentos afirma Batista (2015)
Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou
retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de
creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado
atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade
destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante
miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e
concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo
estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento
em relaccedilatildeo agrave pontualidade e regularidade dos mesmos
A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando
no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28
eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)
311 Risco de creacutedito
No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma
transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras
lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito
O simples ato de emprestar uma quantia ou algum item a alguem envolve a
possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza
que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo
entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do
devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso
A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa
gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de
insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)
Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do
creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada
empresa
312 Regressatildeo logiacutestica para anaacutelise de creacutedito
Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de
modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes
para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo
com Gouvecirca Gonccedilalves e Mantovani (2013)
Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-
ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da
instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos
Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de
decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar
ganhos financeiros para a instituiccedilatildeo
A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por
exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade
e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees
qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de
pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam
classificar um perfil de adimplecircncia ou inadimplecircncia
Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29
passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos
90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real
Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit
scoring (CROOK EDELMAN THOMAS 2007)
A seguir veremos os passos para se construir um modelo de credit scoring utilizando
a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)
1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com
base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade
desta base de dados para resultar em um modelo de sucesso
2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da
variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem
variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se
aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente
bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo
devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica
3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute
sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente
neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes
devido agrave diferenccedila de tamanho
4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios
estatiacutesticos cada variaacutevel a ser utilizada no modelo
5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e
das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica
a fim de obter o modelo de regressatildeo
Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado
como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel
dependente binaacuteria Y pode assumir os valores
Y =
1 bom cliente
0 mau cliente
A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes
mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica
de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo
logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30
probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um
mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de
um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03
Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis
independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria
ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das
parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras
Destaca-se portanto que cada estudo oferece um resultado particular pois depende do
que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e
da poliacutetica de cada instituiccedilatildeo
Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito
pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia
aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a
cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado
obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e
consequentemente a perda do creacutedito
313 Aplicaccedilatildeo Exemplo
A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um
modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os
dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso
e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no
municiacutepio de Viccedilosa-MG
De acordo com os referidos autores a base amostral deste estudo foi composta
pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes
legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia
das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos
atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema
fornecido pela agecircncia bancaacuteria em estudo
A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos
clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que
tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise
de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de
relacionamento com o banco a renda o limite do cheque especial o estado civil e a
escolaridade
Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2
divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31
clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino
meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para
poacutes-graduccedilatildeo ou acima disto
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo
Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336
Fonte Adaptado de Ferreira Celso e Neto (2012)
Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos
atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na
Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados
Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento
de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste
cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1
representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na
equaccedilatildeo 31
p =1
1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)
Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e
Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que
clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores
observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e
maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo
agrave inadimplecircncia
32 Anaacutelise ambiental
O homem tem usado e modificado o solo haacute milhares de anos a fim de seu
proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura
urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender
a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32
Fatores como o crescimento populacional e a alta demanda por alimentos e outros
recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas
de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma
das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos
diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma
Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do
homem
Figura 5 ndash Componentes da mudanccedila ambiental global
Fonte VALENCIA (2008)
Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de
km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto
isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e
Foley (1999 apud VALENCIA 2008)
Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza
O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos
naturais dele para a realizaccedilatildeo das mesmas
A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas
do uso do solo
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33
bull Cobertura de solo
A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas
bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo
Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros
bull Uso do solo
O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo
Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem
do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso
do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas
executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo
com FAO (1998 apud VALENCIA 2008)
Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes
usos de solo podem ser realizados em uma mesma cobertura de solo assim como
diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como
mostrado na Tabela 2
Tabela 2 ndash Uso e Cobertura do solo
Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte
Fonte VALENCIA (2008)
bull Mudanccedilas do uso do solo
O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as
mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais
simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou
reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do
solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do
solo pode mudar mesmo se mantendo inalterado seu uso
Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas
de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do
solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente
relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers
(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34
uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras
agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade
a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades
humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes
no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os
dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por
sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra
321 Regressatildeo logiacutestica na anaacutelise ambiental
Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um
conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em
condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo
Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se
como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que
mais contribuem para a ocorrecircncia destas mudanccedilas
O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para
avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma
determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y
denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem
uso agriacutecola
Y =
1 aacutereas com uso agriacutecola
0 aacutereas sem uso agriacutecola
A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre
estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel
tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso
agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das
variaacuteveis independentes a serem consideradas na anaacutelise
A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem
de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados
ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por
exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute
encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes
Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)
que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo
meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35
devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites
florestais entre outros
A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma
aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis
independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo
(natildeo agriacutecola para agriacutecola)
322 Aplicaccedilatildeo Exemplo
O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia
Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo
de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este
estudo foi realizado por Mendes e Vega (2011)
Para a base amostral deste estudo o autor considerou imagens da BAP correspon-
dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a
gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou
aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-
pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a
transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os
pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000
Fonte Mendes e Vega (2011)
Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36
agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto
X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram
incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa
significacircncia para o modelo
A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico
com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de
regressatildeo logiacutestica pode ser observado na Figura 7
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico
Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia
anualTMA oC
Balanccedilo hiacutedricoclimaacutetico meacutedio anual
BHC mmano
Distacircncias para assedes urbanas de
municiacutepios brasileirosinseridos na bacia
D_URBMuacuteltiplos de
graus
Cotas topograacuteficas nabacia pelo lado
brasileiroTOPO m
Cotas topograacuteficasreclassificadas (le 150
m ge 150 m)TOPO_REC 1-2
Distacircncias paraestradas principais(pavimentadas e
federais) brasileirasinseridas na bacia
D_ESTRADAMuacuteltiplos de
graus
Distacircncias para asferrovias brasileirasinseridas na bacia
D_FERROMuacuteltiplos de
graus
Fonte Adaptado de Mendes e Vega (2011)
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados
Fonte Mendes e Vega (2011)
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37
Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute
categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-
ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em
aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e
facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-
mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento
estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas
33 Oacutebito Neonatal
O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias
incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os
sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes
Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias
incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de
neomorto
A mortalidade infantil pode ser considerada um dos melhores indicadores da
qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo
Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo
formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia
ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)
Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130
milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no
periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA
variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de
vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia
Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa
de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et
al 2005)
No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas
apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo
dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo
com as taxas de mortalidade poacutes-neonatal
Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal
teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que
possibilitem identificar os fatores de risco para o oacutebito neonatal
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal
Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-
geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo
consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do
que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos
do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et
al 2011)
A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar
a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer
niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias
separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo
Goldstein (2003)
Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito
neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada
A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em
crianccedilas com menos de 28 dias de vida
Y =
1 ocorrecircncia do oacutebito neonatal
0 natildeo ocorrecircncia do oacutebito neonatal
Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas
satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas
em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar
no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)
tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de
pessoas que moram no mesmo domiciacutelio entre outros
O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil
neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute
importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do
oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de
risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta
a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados
332 Aplicaccedilatildeo Exemplo
Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a
mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos
os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39
De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na
cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de
dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar
os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste
periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos
1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros
A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a
ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo
relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos
de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de
consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e
abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel
dependente foram consideradas estatisticamente significantes
Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-
nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo
varia de 0 a 10 e quanto mais proacuteximo de 10 melhor
Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves
dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4
informa o OR de quatro das variaacuteveis independentes inclusas neste estudo
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo
Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076
Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)
O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo
entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo
Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das
variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos
Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances
iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro
grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo
Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a
variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura
do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40
agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo
(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito
em comparaccedilatildeo agraves crianccedilas a termo
As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de
unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo
de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por
exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave
oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6
Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o
sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator
preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito
34 Consideraccedilotildees Finais
Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido
em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de
creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes
trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser
estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e
um estudo de caso realizado utilizando esta teacutecnica
A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser
usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo
anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo
gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre
o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois
objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees
finais limitaccedilotildees e trabalhos futuros
41
4 Conclusatildeo
O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de
regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de
informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que
ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem
analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que
assumem os valores da variaacutevel dependente
No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo
de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a
muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo
da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo
logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald
satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo
R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado
No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo
logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado
o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso
da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os
resultados obtidos
A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado
neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o
desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente
utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que
atuam com concessatildeo de creacutedito a seus clientes
O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e
o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados
nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo
de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas
Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro
meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja
indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal
caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador
caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo
linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua
A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo
Capiacutetulo 4 Conclusatildeo 42
logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta
de anaacutelise de dados de resposta categoacuterica
Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras
no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi
dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem
dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo
exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar
a regressatildeo logiacutestica com base nesses conceitos
Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo
logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel
eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo
epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios
de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada
um destes grupos entre outras possibilidades
43
Referecircncias
AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12
BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo
de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27
BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel
e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16
BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta
Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27
CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23
CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28
COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27
CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23
CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29
FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31
FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33
GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38
GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp
Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29
Referecircncias 44
HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24
HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27
HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23
JENNINGS D E Judging inference adequacy in logistic regression Journal of the
American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24
KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37
LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33
MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev
Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40
MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27
MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35
MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de
PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20
POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16
RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32
RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de
Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14
TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27
Referecircncias 45
VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila
do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33
ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38
ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37
Capiacutetulo 2 Regressatildeo Logiacutestica 24
Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-
tiva para o modelo
252 Teste de Wald
O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da
significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-
tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada
variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel
dependente
Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-
los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do
objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou
no grupo da natildeo ocorrecircncia do evento (Y = 0)
O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de
um coeficiente e a estimativa do seu erro padratildeo
Wj =βj
var(βj)(218)
Fonte (BATISTA 2015)
Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA
2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos
ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo
quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de
Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado
253 Pseudo R2 de Cox e Snell
A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de
um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo
logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo
linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica
onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato
de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa
similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2
Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive
citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor
Capiacutetulo 2 Regressatildeo Logiacutestica 25
em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a
regressatildeo linear
Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um
dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na
equaccedilatildeo 217
R2 = 1 minus
(
L(β)0
L(β)M
)
2n (219)
Fonte (BATISTA 2015)
Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para
um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A
racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que
depende da probabilidade assumida pelos modelos com e sem preditores
Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell
Fonte FIGUEIRA (2006)
O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute
menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente
De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-
dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No
exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40
Este mecanismo pode ser usado para comparar o desempenho de modelos concor-
rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais
elevado
26 Consideraccedilotildees Finais
Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de
dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente
dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de
Capiacutetulo 2 Regressatildeo Logiacutestica 26
variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta
teacutecnica
O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo
de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo
entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam
nos coeficientes que compotildeem o modelo
Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se
que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de
avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos
com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da
regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo
27
3 Aplicaccedilotildees de Regressatildeo Logiacutestica
Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela
primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras
aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias
Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica
ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou
o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este
trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos
envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede
Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de
regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer
e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo
para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria
administraccedilatildeo educaccedilatildeo ambiental e outros
Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de
regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de
creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente
31 Gestatildeo de creacutedito
Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute
muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu
reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou
pagamentos afirma Batista (2015)
Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou
retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de
creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado
atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade
destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante
miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e
concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo
estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento
em relaccedilatildeo agrave pontualidade e regularidade dos mesmos
A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando
no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28
eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)
311 Risco de creacutedito
No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma
transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras
lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito
O simples ato de emprestar uma quantia ou algum item a alguem envolve a
possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza
que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo
entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do
devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso
A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa
gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de
insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)
Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do
creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada
empresa
312 Regressatildeo logiacutestica para anaacutelise de creacutedito
Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de
modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes
para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo
com Gouvecirca Gonccedilalves e Mantovani (2013)
Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-
ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da
instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos
Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de
decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar
ganhos financeiros para a instituiccedilatildeo
A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por
exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade
e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees
qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de
pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam
classificar um perfil de adimplecircncia ou inadimplecircncia
Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29
passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos
90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real
Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit
scoring (CROOK EDELMAN THOMAS 2007)
A seguir veremos os passos para se construir um modelo de credit scoring utilizando
a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)
1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com
base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade
desta base de dados para resultar em um modelo de sucesso
2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da
variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem
variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se
aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente
bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo
devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica
3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute
sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente
neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes
devido agrave diferenccedila de tamanho
4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios
estatiacutesticos cada variaacutevel a ser utilizada no modelo
5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e
das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica
a fim de obter o modelo de regressatildeo
Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado
como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel
dependente binaacuteria Y pode assumir os valores
Y =
1 bom cliente
0 mau cliente
A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes
mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica
de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo
logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30
probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um
mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de
um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03
Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis
independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria
ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das
parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras
Destaca-se portanto que cada estudo oferece um resultado particular pois depende do
que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e
da poliacutetica de cada instituiccedilatildeo
Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito
pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia
aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a
cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado
obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e
consequentemente a perda do creacutedito
313 Aplicaccedilatildeo Exemplo
A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um
modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os
dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso
e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no
municiacutepio de Viccedilosa-MG
De acordo com os referidos autores a base amostral deste estudo foi composta
pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes
legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia
das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos
atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema
fornecido pela agecircncia bancaacuteria em estudo
A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos
clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que
tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise
de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de
relacionamento com o banco a renda o limite do cheque especial o estado civil e a
escolaridade
Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2
divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31
clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino
meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para
poacutes-graduccedilatildeo ou acima disto
Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo
Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336
Fonte Adaptado de Ferreira Celso e Neto (2012)
Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos
atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na
Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados
Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento
de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste
cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1
representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na
equaccedilatildeo 31
p =1
1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)
Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e
Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que
clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores
observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e
maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo
agrave inadimplecircncia
32 Anaacutelise ambiental
O homem tem usado e modificado o solo haacute milhares de anos a fim de seu
proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura
urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender
a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32
Fatores como o crescimento populacional e a alta demanda por alimentos e outros
recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas
de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma
das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos
diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma
Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do
homem
Figura 5 ndash Componentes da mudanccedila ambiental global
Fonte VALENCIA (2008)
Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de
km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto
isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e
Foley (1999 apud VALENCIA 2008)
Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza
O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos
naturais dele para a realizaccedilatildeo das mesmas
A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas
do uso do solo
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33
bull Cobertura de solo
A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas
bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo
Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros
bull Uso do solo
O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo
Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem
do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso
do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas
executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo
com FAO (1998 apud VALENCIA 2008)
Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes
usos de solo podem ser realizados em uma mesma cobertura de solo assim como
diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como
mostrado na Tabela 2
Tabela 2 ndash Uso e Cobertura do solo
Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte
Fonte VALENCIA (2008)
bull Mudanccedilas do uso do solo
O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as
mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais
simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou
reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do
solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do
solo pode mudar mesmo se mantendo inalterado seu uso
Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas
de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do
solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente
relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers
(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34
uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras
agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade
a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades
humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes
no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os
dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por
sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra
321 Regressatildeo logiacutestica na anaacutelise ambiental
Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um
conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em
condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo
Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se
como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que
mais contribuem para a ocorrecircncia destas mudanccedilas
O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para
avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma
determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y
denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem
uso agriacutecola
Y =
1 aacutereas com uso agriacutecola
0 aacutereas sem uso agriacutecola
A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre
estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel
tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso
agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das
variaacuteveis independentes a serem consideradas na anaacutelise
A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem
de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados
ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por
exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute
encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes
Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)
que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo
meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35
devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites
florestais entre outros
A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma
aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis
independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo
(natildeo agriacutecola para agriacutecola)
322 Aplicaccedilatildeo Exemplo
O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia
Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo
de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este
estudo foi realizado por Mendes e Vega (2011)
Para a base amostral deste estudo o autor considerou imagens da BAP correspon-
dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a
gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou
aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-
pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a
transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os
pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo
Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000
Fonte Mendes e Vega (2011)
Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36
agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto
X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram
incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa
significacircncia para o modelo
A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico
com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de
regressatildeo logiacutestica pode ser observado na Figura 7
Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico
Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia
anualTMA oC
Balanccedilo hiacutedricoclimaacutetico meacutedio anual
BHC mmano
Distacircncias para assedes urbanas de
municiacutepios brasileirosinseridos na bacia
D_URBMuacuteltiplos de
graus
Cotas topograacuteficas nabacia pelo lado
brasileiroTOPO m
Cotas topograacuteficasreclassificadas (le 150
m ge 150 m)TOPO_REC 1-2
Distacircncias paraestradas principais(pavimentadas e
federais) brasileirasinseridas na bacia
D_ESTRADAMuacuteltiplos de
graus
Distacircncias para asferrovias brasileirasinseridas na bacia
D_FERROMuacuteltiplos de
graus
Fonte Adaptado de Mendes e Vega (2011)
Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados
Fonte Mendes e Vega (2011)
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37
Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute
categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-
ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em
aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e
facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-
mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento
estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas
33 Oacutebito Neonatal
O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias
incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os
sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes
Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias
incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de
neomorto
A mortalidade infantil pode ser considerada um dos melhores indicadores da
qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo
Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo
formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia
ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)
Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130
milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no
periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA
variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de
vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia
Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa
de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et
al 2005)
No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas
apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo
dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo
com as taxas de mortalidade poacutes-neonatal
Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal
teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que
possibilitem identificar os fatores de risco para o oacutebito neonatal
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38
331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal
Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-
geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo
consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do
que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos
do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et
al 2011)
A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar
a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer
niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias
separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo
Goldstein (2003)
Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito
neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada
A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em
crianccedilas com menos de 28 dias de vida
Y =
1 ocorrecircncia do oacutebito neonatal
0 natildeo ocorrecircncia do oacutebito neonatal
Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas
satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas
em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar
no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)
tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de
pessoas que moram no mesmo domiciacutelio entre outros
O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil
neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute
importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do
oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de
risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta
a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados
332 Aplicaccedilatildeo Exemplo
Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a
mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos
os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39
De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na
cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de
dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar
os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste
periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos
1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros
A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a
ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo
relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos
de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de
consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e
abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel
dependente foram consideradas estatisticamente significantes
Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-
nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo
varia de 0 a 10 e quanto mais proacuteximo de 10 melhor
Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves
dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4
informa o OR de quatro das variaacuteveis independentes inclusas neste estudo
Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo
Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076
Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)
O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo
entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo
Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das
variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos
Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances
iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro
grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo
Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a
variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura
do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir
Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40
agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo
(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito
em comparaccedilatildeo agraves crianccedilas a termo
As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de
unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo
de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por
exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave
oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6
Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o
sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator
preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito
34 Consideraccedilotildees Finais
Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido
em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de
creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes
trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser
estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e
um estudo de caso realizado utilizando esta teacutecnica
A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser
usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo
anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo
gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre
o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois
objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees
finais limitaccedilotildees e trabalhos futuros
41
4 Conclusatildeo
O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de
regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de
informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que
ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem
analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que
assumem os valores da variaacutevel dependente
No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo
de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a
muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo
da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo
logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald
satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo
R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado
No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo
logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado
o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso
da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os
resultados obtidos
A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado
neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o
desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente
utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que
atuam com concessatildeo de creacutedito a seus clientes
O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e
o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados
nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo
de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas
Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro
meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja
indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal
caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador
caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo
linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua
A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo
Capiacutetulo 4 Conclusatildeo 42
logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta
de anaacutelise de dados de resposta categoacuterica
Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras
no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi
dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem
dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo
exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar
a regressatildeo logiacutestica com base nesses conceitos
Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo
logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel
eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo
epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios
de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada
um destes grupos entre outras possibilidades
43
Referecircncias
AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12
BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo
de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27
BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel
e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16
BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta
Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27
CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23
CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28
COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27
CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23
CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29
FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31
FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24
FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33
GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38
GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp
Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29
Referecircncias 44
HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24
HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27
HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23
JENNINGS D E Judging inference adequacy in logistic regression Journal of the
American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24
KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37
LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33
MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev
Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40
MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27
MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35
MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de
PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20
POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16
RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32
RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de
Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14
TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27
Referecircncias 45
VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila
do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33
ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38
ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37