MODELOS DE REGRESSÃO PARAMÉTRICOStarciana/MDS/Aula6.pdf · No modelo de regressão linear usual,...
Transcript of MODELOS DE REGRESSÃO PARAMÉTRICOStarciana/MDS/Aula6.pdf · No modelo de regressão linear usual,...
MODELOS DE REGRESSÃO PARAMÉTRICOS
� Às vezes é de interesse incluir na análise, características dos indivíduos que podem estar relacionadas com o tempo de vida.
� Estudo de insuficiência renal: verificar qual o efeito da idade sobre o tempo de sobrevivência ou se existe diferença no tempo de sobrevida conforme a doença de base causadora da insuficiência renal.
� Na estimação não-paramétrica é possível incluir covariáveis a partir de uma estratificação e realização de testes em seguida.
�Contudo, desta forma, não é possível estimar o efeito da covariável, mas apenas comparar e testar a igualdade entre as curvas de sobrevivência.
� Outra questão que também não é considerada neste tipo de análise é que o efeito individual dessas variáveis pode ser modificado pela presença ou interação com as demais.
� A forma mais eficiente de acomodar o efeito dessas covariáveis é utilizar um modelo de regressão apropriado para dados censurados.
� O modelo de regressão linear, onde a resposta é associada com as variáveis explicativas por meio de um modelo linear, é o mais conhecido.
� Para a formulação do modelo é necessário especificar um componente determinístico e um componente aleatório (estocástico).
� Este último componente, geralmente, é considerado como tendo distribuição normal.
� No caso de uma única covariável, a representação desse modelo é a seguinte:
� Y é a resposta, x é a covariável, β0 e β1 são os parâmetros a serem estimados e ε é o erro aleatório com distribuição normal.
� Em análise de sobrevivência utilizaremos as distribuições paramétricas para o tempo de sobrevida, incluindo nas observações de cada indivíduo, além do tempo de vida e censura, o vetor de covariáveis do indivíduo.
εββ ++= xY 10
� Para a formulação do modelo é necessário especificar um componente aleatório, que descreve probabilisticamente o comportamento do tempo de vida, e um componente determinístico, que descreve a relação entre os parâmetros da distribuição de probabilidade e as covariáveis.
� Em análise de sobrevivência, existem duas classes de modelos propostos: os modelos paramétricos e os semiparamétricos.
� Os modelos paramétricos, também denominados modelos de tempo de vida acelerados, são mais eficientes, porém menos flexíveis do que os modelos semiparamétricos.
� A combinação de um componente determinístico e uma distribuição exponencial com média 1 para o erro, produz o seguinte modelo:
� Considerando o logaritmo, teremos um modelo semelhante ao modelo linear:
com
� O erro segue uma distribuição do valor extremo padrão.
MODELO DE REGRESSÃO EXPONENCIAL
{ }εβxT ′= exp
νβββ ++++== kk xxTY ...)log( 110
)log(εν =
ν
� O modelo exponencial deve ser usado quando se assume que o risco é constante ao longo do tempo.
� O parâmetro λ da distribuição exponencial depende das covariáveis da seguinte forma: λ(x) = exp(β0 + β1x)= exp(x’β).
� Onde x’ = (1,x1,...,xp) e β = (β0,β1,...,βp).
� As funções de sobrevivência e risco são dadas por:
MODELO DE REGRESSÃO EXPONENCIAL
( )txtxxtS )'exp(exp))(exp()/( βλ −=−=
)'exp()()|( βλ xxxth ==
� Após a especificação do modelo, segue a estimação dos seus parâmetros. Na ausência de normalidade dos erros e, principalmente na presença de censuras, uma opção mais apropriada é o método de máxima verossimilhança.
� Considerando dados independentes, a função de verossimilhança para o modelo pode ser escrita, para uma amostra de tamanho n, por:
� Para obtenção dos estimadores de máxima verossimilhança, é necessário substituir as funções de densidade e sobrevivência da equação anterior, por aquelas da distribuição exponencial.
� Como as equações são não-lineares nos parâmetros e não apresentam solução analítica é necessário utilizar o método numérico de Newton-Raphson.
� Devido a simplicidade do modelo de regressão exponencial, poucas situações na prática são adequadamente ajustadas por este modelo.
� O modelo de regressão Weibull tem bastante aplicação em análise de sobrevivência.
� A utilização da distribuição Weibull no contexto da modelagem de sobrevida significa que o tempo T segue uma distribuição de Weibull.
� Como no modelo exponencial, o parâmetro de escala λdepende das covariáveis (λ(x) = exp{x’β}).
MODELO DE REGRESSÃO WEIBULL
� As funções de sobrevivência e risco par o modelo Weibull são dadas por
� O método de máxima verossimilhança é novamente utilizado e o uso do método de Newton-Raphson é necessário para obtenção das estimativas de máxima verossimilhança.
( )( ) ( )( )( )γγβλ txtxxtS ′−=−= expexp)(exp)/(
γγγγ βγλγ )'exp()()|( 11xtxtxth
−− ==
� O modelo de regressão Lognormal também tem bastante aplicação em análise de sobrevivência.
� A utilização da distribuição Lognormal no contexto da modelagem de sobrevida significa que o tempo T segue uma distribuição de Lognormal.
� Como nos modelos exponencial e weibull, o parâmetro µ depende das covariáveis (µ(x) = exp{x’β}).
MODELO DE REGRESSÃO LOGNORMAL
� As funções de sobrevivência e risco par o modelo Lognormal são dadas por
� O método de máxima verossimilhança é novamente utilizado e o uso do método de Newton-Raphson é necessário para obtenção das estimativas de máxima verossimilhança.
( )
′−−=
−−=
σ
βφ
σ
µφ
xtxtxtS
exp)ln(1
)()ln(1)/(
)(
)()(
tS
tfth =
� Uma proposta de interpretação foi proposta por Hosmer e Lemeshow (1999).
� É possível mostrar que a razão dos tempos medianos é dada por
Os modelos apresentados garantem esta proporcionalidade para todos os percentis.
� Esta interpretação pode ser estendida para variáveis categóricas e contínuas.
Interpretação dos coeficientes estimados
β
β
β ˆ
5.0
5.0
)ˆ,0(
)ˆ,1(e
xt
xt=
=
=
� Esta análise pode ser utilizada tanto para obter uma estatística global do ajuste de modelo, como para comparar modelos.
� A hipótese nula de que o modelo se ajusta aos dados pode ser testada pela estatística:
� D = 2(lmodelo – lnulo)
� Em que lmodelo e lnulo são respectivamente, o logaritmo da função de verossimilhança do modelo com as covariáveis e o logaritmo da função de verossimilhança do modelo nulo (sem covariáveis).
� Esta estatística segue uma distribuição χ2 com número de graus de liberdade igual ao número de covariáveis do modelo.
TESTE DA RAZÃO DE VEROSSIMILHANÇA (ANÁLISE DA FUNÇÃO DESVIO)
� Podemos extender essa análise para comparar um modelo com distribuição exponencial e outro com distribuição Weibull.
� Isso equivale a testar a hipótese de que γ = 1.
� A estatística de teste, que tem distribuição qui-quadrado com um grau de liberdade, é dada por
� D = 2(lweibull – lexponencial)~χ21
Onde lweibull e lexponencial são os logaritmos da função de verossimilhança do modelo nulo weibull e do modelo nulo exponencial.
� Esta técnica também pode ser utilizada para selecionar variáveis em um modelo de regressão paramétrico.
� O modelo com maior número de variáveis deve conter o modelo com menos covariáveis.
� A estatística de teste é dada por
� D = 2(lmaior – lmenor)~χ2,
� sendo lmenor o logaritmo da função de verossimilhança do modelo com menos parâmetros e lmaior do modelo com mais parâmetros.
� Esta estatística tem distribuição qui-quadrado com graus de liberdade igual a diferença no número de covariáveis dos modelos.
� Exemplo: Considere o estudo dos pacientes em diálise. Vamos comparar os modelos com distribuição exponencial e weibull. Considere as saídas dos dois modelos no R.
� A análise gráfica apresentada anteriormente para a escolhada distribuição também pode ser utilizada para avaliar aadequação do modelo de regressão.
� Para isso, são construídos gráficos para comparar a curva desobrevivência gerada pelo estimador de Kaplan-Meier com asestimadas parametricamente.
� No modelo de regressão linear usual, uma análise gráfica dos resíduos é usada para avaliar a adequação do modelo ajustado.
� A definição de uma medida de resíduo no contexto de sobrevivência não é tão clara e direta como em modelos lineares.
ANÁLISE GRÁFICA
� Diversos resíduos têm sido propostos na literatura para avaliar o ajuste do modelo.
� Técnicas gráficas, que fazem uso dos diferentes resíduos propostos, são, em particular, bastante utilizadas para examinar diferentes aspectos do modelo.
RESÍDUO DE COX-SNELL
� Este resíduo é uma medida útil para examinar o ajuste global do modelo. É definido por
� Para os modelos vistos anteriormente os resíduos de Cox-Snell são dados por:
Exponencial: Weibull:
Lognormal:
)/(ˆˆ xtHe ii =
{ }[ ]β̂expˆiii xte ′−= { }[ ]γβ
ˆˆexpˆ
iii xte ′−=
′−−−=
σ
βφ
ˆ
ˆlog1logˆ ii
i
xte
� Se o modelo for adequado e as estimativas dos parâmetros estiverem próximas dos verdadeiros valores, estes resíduos devem parecer como uma amostra censurada de uma distribuição exponencial padrão (λ = 1).
� O gráfico das curvas de sobrevivência desses resíduos, obtidas por Kaplan-Meier e pelo modelo ajustado, também auxilia na verificação da qualidade do modelo.
� Quanto mais próximas elas se apresentarem, melhor é considerado o ajuste do modelo aos dados.
RESÍDUOS MARTINGALE
� Para os modelos de regressão paramétricos, a definição de resíduos martingale é dada por:
� Em que δi é a variável indicadora de censura e ei os resíduos de Cox-Snell.
� Esses resíduos, são vistos como uma estimativa do número de falhas em excesso observada nos dados mas não predito pelo modelo.
� São usados, em geral, para examinar a melhor forma funcional (linear, quadrática,...) para uma dada covariável em um modelo de regressão assumido para os dados sob estudo.
� Se a curva suavizada obtida no gráfico: resíduo x variável for linear, nenhuma transformação na variável é necessária.
iii eM ˆˆ −= δ
RESÍDUOS DEVIANCE
� Este tipo de resíduo é uma tentativa de fazer com que os resíduos martingale sejam mais simétricos em torno de zero.
� Os resíduos deviance nos modelos de regressão paramétricos são definidos por:
� Estes resíduos facilitam em geral a detecção de pontos atípicos (outliers).
[ ] 2/1))ˆlog(ˆ(2)ˆ(sinˆ
iiiiii mmmald −+−= δδ
� Se o modelo for apropriado esses resíduos devem apresentar um comportamento aleatório em torno de zero.
� Gráficos dos resíduos martingale ou deviance contra o tempo, ou contra o índice da observação, fornecem uma maneira de verificar a adequação do modelo ajustado.
� Uma observação importante é que estes métodos gráficos devem ser usados para descartar modelos claramente inapropriados e não para mostrar que um particular modelo é melhor que o outro.
� Exemplo: No estudo dos pacientes em diálise, considere como covariável a presença ou ausência de diabetes no paciente.
� A figura mostra que o modelo que mais se aproxima da estimação não-paramétrica é o modelo Weibull.
� Exemplo: Análise dos dados de aleitamento materno.
� Exemplo: Análise dos dados de aleitamento materno.
� Exemplo: Análise dos dados de aleitamento materno.
� Exemplo: Análise dos dados de aleitamento materno.
� Exemplo: Análise dos dados de aleitamento materno.
� Exemplo: Análise dos dados de aleitamento materno.
� Exemplo: Análise dos dados de aleitamento materno.