Post on 16-Aug-2015
description
Modelos de Regressao
Exerccios - Lista 4
Professor responsavel:Gustavo Pereira
Mestrandos:Sergio CarvalhoMarco Inacio
CARLOS - SPSAO4 de julho de 2015
1
Exerccio 19 - Captulo 2
Apresentamos a seguir um conjunto de dados em que pacientes com leucemiaforam classificados segundo a ausencia ou presenca de uma caracterstica morfologica nas celulas brancas. Pacientes classificados de AG positivo foram aqueles com a presenca da caracterstica e pacientes classificados de AG negativo nao apresentado tambem o tempo de sobrevivenciaapresentaram a caracterstica. Edo paciente (em semanas) apos o diagnostico da doenca e o numero de celulasbrancas (WBC) no momento do diagnostico. Esses dados estao descritos noarquivo sobrev.dat.Supondo que o tempo de sobrevivencia apos o diagnostico segue uma distribuicao gama, proponha um modelo para explicar o tempo medio de sobrevivencia dados log(WBC) e AG(=1 positivo, =0 negativo). Faca uma analisede diagnostico com o modelo ajustado e interprete as estimativas.
Tabela 1: Dados do Problema12345678910111213141516
WBC2300.004400.00750.003000.004300.004000.002600.001500.006000.009000.0010500.005300.0010000.0010000.0017000.0019000.00
Tempo65.0056.00156.0065.00100.0017.00134.007.0016.0016.00108.0022.00121.003.004.004.00
AG1.000.001.000.001.000.001.000.001.000.001.000.001.000.001.000.00
WBC5400.0027000.007000.0028000.009400.0031000.0032000.0026000.0035000.0021000.00100000.0079000.00100000.00100000.0052000.00100000.00
Tempo39.002.00143.003.0056.008.0026.004.0022.003.001.0030.001.004.005.0043.00
AG1.000.001.000.001.000.001.000.001.000.001.000.001.000.001.000.00
Denotaremos por Tij , tal quei = 1, ..., 33 e j = 1, 2, tempo de sobrevivenciado paciente (em semanas) apos o diagnostico da doenca e o numero de celulasbrancas (WBC) no momento do diagnosticoFigura 1: Densidade do Tempo
1
Na figura 1 temos a densidade da variavel respotas Tempo, podemos observar que ha valores menores que zero.Figura 2: Dispersao: Tempo Vs WBC
Na figura 2, temos o diagrama de dispersao entre a variavel resposta Tempovs a variavel explicativa WBC, observamos uma assimetria com cauda `a direita,o que justificaria o uso de uma distribuicao assimetrica com valores positivos.Figura 3: Boxplot: Tempo Vs AG
Na figura 3 temos o grafico de boxplot ilustrando as influencias dos gruposAG = 0 e AG = 1 sobre a variavel resposta tempo, obevervamos que a mediapara o grupo AG = 0 e relativamente menor que a media do grupo AG = 1.Na tabela abaixo sao apresentadas as medias, desvios padrao e coeficientesde variacao amostrais referentes aos grupos AG = 0 e AG = 1.EstatsticaMediaDesvio PadraoC. Variacao (%)
AG=017.9420.30113.2%
AG=162.4754.3587%
Vamos assumir entao que Tij segue uma distribuicao Gama de media i eparametro de dispersao 12
Tij G(i , 1 )em que 1 = 0. Para ajustarmos o modelo no R devemos fazer o seguinte:Como a covariavel A fim de facilitarmos as interpretacoes dos resultados oumesmo fazermos comparacoes com o modelo normal linear, vamos propor ummodelo gama com ligacao identidade, sendo a parte sistematica dada pori = + 1 W BCi + 2 AGi
Com o auxlio do R , podemos realizar o ajuste:ajuste1.sobrev = glm(Tempo ~ WBC + AG, family=Gamma, maxit=1000)summary(ajuste1.sobrev)Deviance Residuals:Min1QMedian-2.0001 -1.2844 -0.4597
3Q0.4593
Max1.7148
Coefficients:\hat{\mu}\hat{\beta}_1}\hat{\beta}_2}--Signif. codes:
Estimate Std. Error4.578e-02 1.551e-024.276e-07 2.546e-07-3.609e-02 1.545e-02
t value Pr(>|t|)2.9520.00608 **1.6790.10346-2.3350.02640 *
0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
(Dispersion parameter for Gamma family taken to be 1.158189)Null deviance: 58.138Residual deviance: 40.882AIC: 302.03
on 32on 30
degrees of freedomdegrees of freedom
Number of Fisher Scoring iterations: 7# Estimativa para o par^ametro de precis~ao:gamma.shape(ajuste2.turbina)Alpha: 0.9388962SE:0.2023664As estimativas de maxima verossimilhanca acima indica em 2 para o AG =0 que um tempo medio de sobrevivencia significativamente menor em relacaoao AG = 1 ao nvel de 5%. Esses resultados confirmam a analise descritivaapresentada na Tabela 1.A estimativa de maxima verossimilhanca do parametro de precisao e o erropadrao aproximado sao dadas por = 0.9388962 e (0.2023664), indicando queas distribuicoes dos tempos ate a morte do paciente nao devem ser muito assimetricas. O desvio do modelo foi de D (y; ) = D(y;) = 40.882 0.9389 =3
38.384, com 30 graus de liberdade, que leva a P = 0.14 e indica que nao rejeitamos o modelo, ou seja, temos um ajuste adequado.1-pchisq(38.38395,30) = 0.14
1.11.1.1
Diagnostico ModeloPontos de Alavanca e Resduos
Dada a matriz H = W 1/2 X(X T W X)1 X T W 1/2 , o resduo componente dodesvio padronizado assume para os modelos gama a seguinte forma quando haintercepto.q21/2log(/yi )tDi = p ii1hem que yi > 0 e hii e o i-esimo elemento da diagonal principal da matriz Estudos de simulacao indicam que o resduo tDi se aproxima da normalidade,particularmente para grande.Figura 4: Grafico de Resduos
Na figura 4 temos o grafico de resduos tDi , observando os graficos podemosnotar que ha certa heterocedasticidade nos dados.
4
Figura 5: Pontos de Alavanca
Na figura 5 no grafico da esquerda notamos que ha pontos que podem serconsiderados influentes , abarrentes. Porem no grafico a direita que sao oshii vs i nao ha discrepancia.1.1.2
Distancia de Cook
Quando a i-esima observacao e excluda a distancia de Cook aproximada ficadada porLDi =
ii (yi i )2h ii )22(1 h
Figura 6: Distancia de Cook
5
1.1.3
QQ-Plot
Figura 7: QQ-Plots
Na figrua 7 podemos observar que nao houve violacao da suposicao de normalidade dos resduos, o que indica de forma geral que o modelo e adequado paraexeplicar os dados.
2
Exercicio 20 - Captulo 3
No modelo logstico linear, temos que Yi Bin(ni , pi ) cuja f.d.p pertencente `afamlia exponencial linear e dada por:
f (yi ; ni , pi ) = exp yi log
pi1 pi
ni+ ni log(1 pi ) + logyi
em que
= 1, i = log
pi1 pi
ni, b(i ) = ni log(1 pi ), c(, yi ) = logyi
Utilizando a funcao de ligacao canonica, temos
pi= xi T i = i = log1 piIsolando pi , temosT
exi pi =1 + exi T p |x
Em que interpreta-se a razao pi i |xij=l+1= ej como sendo a proporcao esperadaij =lda variavel da variavel resposta quando xij aumenta em uma unidade. Emnossas analises consideraremos a variavel tratamento como sendo a variavelresposta, uma vez que esta variavel e dicotomica.6
2.1
O Problema
Nosso problema consiste em dado um conjunto de covariaveis; idade, mancha,infiltracao, leuce-medula, malignidade e temp-max, utilizando a metodo derazao de verossimilhanca, selecionar dentras esas covariaveis, variaveis que consigam explicar o modelo com base em um nvel de significanica PE = PS = 0.20,e com o auxlio do R, temos:Passo 1: Modelo inicial apenas com o interceptofit1 > GRAFICOS DE DISPERSAO