MODELOS DE REGRESSÃO PARAMÉTRICOStarciana/MDS/Aula6.pdf · No modelo de regressão linear usual,...

MODELOS DE REGRESSÃO PARAMÉTRICOS

� Às vezes é de interesse incluir na análise, características dos indivíduos que podem estar relacionadas com o tempo de vida.

� Estudo de insuficiência renal: verificar qual o efeito da idade sobre o tempo de sobrevivência ou se existe diferença no tempo de sobrevida conforme a doença de base causadora da insuficiência renal.

� Na estimação não-paramétrica é possível incluir covariáveis a partir de uma estratificação e realização de testes em seguida.

�Contudo, desta forma, não é possível estimar o efeito da covariável, mas apenas comparar e testar a igualdade entre as curvas de sobrevivência.

� Outra questão que também não é considerada neste tipo de análise é que o efeito individual dessas variáveis pode ser modificado pela presença ou interação com as demais.

� A forma mais eficiente de acomodar o efeito dessas covariáveis é utilizar um modelo de regressão apropriado para dados censurados.

� O modelo de regressão linear, onde a resposta é associada com as variáveis explicativas por meio de um modelo linear, é o mais conhecido.

� Para a formulação do modelo é necessário especificar um componente determinístico e um componente aleatório (estocástico).

� Este último componente, geralmente, é considerado como tendo distribuição normal.

� No caso de uma única covariável, a representação desse modelo é a seguinte:

� Y é a resposta, x é a covariável, β0 e β1 são os parâmetros a serem estimados e ε é o erro aleatório com distribuição normal.

� Em análise de sobrevivência utilizaremos as distribuições paramétricas para o tempo de sobrevida, incluindo nas observações de cada indivíduo, além do tempo de vida e censura, o vetor de covariáveis do indivíduo.

εββ ++= xY 10

� Para a formulação do modelo é necessário especificar um componente aleatório, que descreve probabilisticamente o comportamento do tempo de vida, e um componente determinístico, que descreve a relação entre os parâmetros da distribuição de probabilidade e as covariáveis.

� Em análise de sobrevivência, existem duas classes de modelos propostos: os modelos paramétricos e os semiparamétricos.

� Os modelos paramétricos, também denominados modelos de tempo de vida acelerados, são mais eficientes, porém menos flexíveis do que os modelos semiparamétricos.

� A combinação de um componente determinístico e uma distribuição exponencial com média 1 para o erro, produz o seguinte modelo:

� Considerando o logaritmo, teremos um modelo semelhante ao modelo linear:

com

� O erro segue uma distribuição do valor extremo padrão.

MODELO DE REGRESSÃO EXPONENCIAL

{ }εβxT ′= exp

νβββ ++++== kk xxTY ...)log( 110

)log(εν =

ν

� O modelo exponencial deve ser usado quando se assume que o risco é constante ao longo do tempo.

� O parâmetro λ da distribuição exponencial depende das covariáveis da seguinte forma: λ(x) = exp(β0 + β1x)= exp(x’β).

� Onde x’ = (1,x1,...,xp) e β = (β0,β1,...,βp).

� As funções de sobrevivência e risco são dadas por:

MODELO DE REGRESSÃO EXPONENCIAL

( )txtxxtS )'exp(exp))(exp()/( βλ −=−=

)'exp()()|( βλ xxxth ==

� Após a especificação do modelo, segue a estimação dos seus parâmetros. Na ausência de normalidade dos erros e, principalmente na presença de censuras, uma opção mais apropriada é o método de máxima verossimilhança.

� Considerando dados independentes, a função de verossimilhança para o modelo pode ser escrita, para uma amostra de tamanho n, por:

� Para obtenção dos estimadores de máxima verossimilhança, é necessário substituir as funções de densidade e sobrevivência da equação anterior, por aquelas da distribuição exponencial.

� Como as equações são não-lineares nos parâmetros e não apresentam solução analítica é necessário utilizar o método numérico de Newton-Raphson.

� Devido a simplicidade do modelo de regressão exponencial, poucas situações na prática são adequadamente ajustadas por este modelo.

� O modelo de regressão Weibull tem bastante aplicação em análise de sobrevivência.

� A utilização da distribuição Weibull no contexto da modelagem de sobrevida significa que o tempo T segue uma distribuição de Weibull.

� Como no modelo exponencial, o parâmetro de escala λdepende das covariáveis (λ(x) = exp{x’β}).

MODELO DE REGRESSÃO WEIBULL

� As funções de sobrevivência e risco par o modelo Weibull são dadas por

� O método de máxima verossimilhança é novamente utilizado e o uso do método de Newton-Raphson é necessário para obtenção das estimativas de máxima verossimilhança.

( )( ) ( )( )( )γγβλ txtxxtS ′−=−= expexp)(exp)/(

γγγγ βγλγ )'exp()()|( 11xtxtxth

−− ==

� O modelo de regressão Lognormal também tem bastante aplicação em análise de sobrevivência.

� A utilização da distribuição Lognormal no contexto da modelagem de sobrevida significa que o tempo T segue uma distribuição de Lognormal.

� Como nos modelos exponencial e weibull, o parâmetro µ depende das covariáveis (µ(x) = exp{x’β}).

MODELO DE REGRESSÃO LOGNORMAL

� As funções de sobrevivência e risco par o modelo Lognormal são dadas por

� O método de máxima verossimilhança é novamente utilizado e o uso do método de Newton-Raphson é necessário para obtenção das estimativas de máxima verossimilhança.

( )

′−−=

−−=

σ

βφ

σ

µφ

xtxtxtS

exp)ln(1

)()ln(1)/(

)(

)()(

tS

tfth =

� Uma proposta de interpretação foi proposta por Hosmer e Lemeshow (1999).

� É possível mostrar que a razão dos tempos medianos é dada por

Os modelos apresentados garantem esta proporcionalidade para todos os percentis.

� Esta interpretação pode ser estendida para variáveis categóricas e contínuas.

Interpretação dos coeficientes estimados

β

β

β ˆ

5.0

5.0

)ˆ,0(

)ˆ,1(e

xt

xt=

=

=

� Esta análise pode ser utilizada tanto para obter uma estatística global do ajuste de modelo, como para comparar modelos.

� A hipótese nula de que o modelo se ajusta aos dados pode ser testada pela estatística:

� D = 2(lmodelo – lnulo)

� Em que lmodelo e lnulo são respectivamente, o logaritmo da função de verossimilhança do modelo com as covariáveis e o logaritmo da função de verossimilhança do modelo nulo (sem covariáveis).

� Esta estatística segue uma distribuição χ2 com número de graus de liberdade igual ao número de covariáveis do modelo.

TESTE DA RAZÃO DE VEROSSIMILHANÇA (ANÁLISE DA FUNÇÃO DESVIO)

� Podemos extender essa análise para comparar um modelo com distribuição exponencial e outro com distribuição Weibull.

� Isso equivale a testar a hipótese de que γ = 1.

� A estatística de teste, que tem distribuição qui-quadrado com um grau de liberdade, é dada por

� D = 2(lweibull – lexponencial)~χ21

Onde lweibull e lexponencial são os logaritmos da função de verossimilhança do modelo nulo weibull e do modelo nulo exponencial.

� Esta técnica também pode ser utilizada para selecionar variáveis em um modelo de regressão paramétrico.

� O modelo com maior número de variáveis deve conter o modelo com menos covariáveis.

� A estatística de teste é dada por

� D = 2(lmaior – lmenor)~χ2,

� sendo lmenor o logaritmo da função de verossimilhança do modelo com menos parâmetros e lmaior do modelo com mais parâmetros.

� Esta estatística tem distribuição qui-quadrado com graus de liberdade igual a diferença no número de covariáveis dos modelos.

� Exemplo: Considere o estudo dos pacientes em diálise. Vamos comparar os modelos com distribuição exponencial e weibull. Considere as saídas dos dois modelos no R.

� A análise gráfica apresentada anteriormente para a escolhada distribuição também pode ser utilizada para avaliar aadequação do modelo de regressão.

� Para isso, são construídos gráficos para comparar a curva desobrevivência gerada pelo estimador de Kaplan-Meier com asestimadas parametricamente.

� No modelo de regressão linear usual, uma análise gráfica dos resíduos é usada para avaliar a adequação do modelo ajustado.

� A definição de uma medida de resíduo no contexto de sobrevivência não é tão clara e direta como em modelos lineares.

ANÁLISE GRÁFICA

� Diversos resíduos têm sido propostos na literatura para avaliar o ajuste do modelo.

� Técnicas gráficas, que fazem uso dos diferentes resíduos propostos, são, em particular, bastante utilizadas para examinar diferentes aspectos do modelo.

RESÍDUO DE COX-SNELL

� Este resíduo é uma medida útil para examinar o ajuste global do modelo. É definido por

� Para os modelos vistos anteriormente os resíduos de Cox-Snell são dados por:

Exponencial: Weibull:

Lognormal:

)/(ˆˆ xtHe ii =

{ }[ ]β̂expˆiii xte ′−= { }[ ]γβ

ˆˆexpˆ

iii xte ′−=

′−−−=

σ

βφ

ˆ

ˆlog1logˆ ii

i

xte

� Se o modelo for adequado e as estimativas dos parâmetros estiverem próximas dos verdadeiros valores, estes resíduos devem parecer como uma amostra censurada de uma distribuição exponencial padrão (λ = 1).

� O gráfico das curvas de sobrevivência desses resíduos, obtidas por Kaplan-Meier e pelo modelo ajustado, também auxilia na verificação da qualidade do modelo.

� Quanto mais próximas elas se apresentarem, melhor é considerado o ajuste do modelo aos dados.

RESÍDUOS MARTINGALE

� Para os modelos de regressão paramétricos, a definição de resíduos martingale é dada por:

� Em que δi é a variável indicadora de censura e ei os resíduos de Cox-Snell.

� Esses resíduos, são vistos como uma estimativa do número de falhas em excesso observada nos dados mas não predito pelo modelo.

� São usados, em geral, para examinar a melhor forma funcional (linear, quadrática,...) para uma dada covariável em um modelo de regressão assumido para os dados sob estudo.

� Se a curva suavizada obtida no gráfico: resíduo x variável for linear, nenhuma transformação na variável é necessária.

iii eM ˆˆ −= δ

RESÍDUOS DEVIANCE

� Este tipo de resíduo é uma tentativa de fazer com que os resíduos martingale sejam mais simétricos em torno de zero.

� Os resíduos deviance nos modelos de regressão paramétricos são definidos por:

� Estes resíduos facilitam em geral a detecção de pontos atípicos (outliers).

[ ] 2/1))ˆlog(ˆ(2)ˆ(sinˆ

iiiiii mmmald −+−= δδ

� Se o modelo for apropriado esses resíduos devem apresentar um comportamento aleatório em torno de zero.

� Gráficos dos resíduos martingale ou deviance contra o tempo, ou contra o índice da observação, fornecem uma maneira de verificar a adequação do modelo ajustado.

� Uma observação importante é que estes métodos gráficos devem ser usados para descartar modelos claramente inapropriados e não para mostrar que um particular modelo é melhor que o outro.

� Exemplo: No estudo dos pacientes em diálise, considere como covariável a presença ou ausência de diabetes no paciente.

� A figura mostra que o modelo que mais se aproxima da estimação não-paramétrica é o modelo Weibull.

� Exemplo: Análise dos dados de aleitamento materno.

MODELOS DE REGRESSÃO PARAMÉTRICOStarciana/MDS/Aula6.pdf · No modelo de regressão linear usual,...

Documents

Transcript of MODELOS DE REGRESSÃO PARAMÉTRICOStarciana/MDS/Aula6.pdf · No modelo de regressão linear usual,...