Analise de sobrevivência pacientes renais Ramires, T.G 2010
-
Upload
thiago-gentil-ramires -
Category
Health & Medicine
-
view
137 -
download
2
Transcript of Analise de sobrevivência pacientes renais Ramires, T.G 2010
Universidade Estadual de Maringá
Departamento de Estatística
Thiago Gentil Ramires
ii
Analise de sobrevivência em pacientes
com problemas renais.
MARINGÁ
OUTUBRO DE 2010
INSTITUTO DO RIM DE MARINGÁ
CURSO DE ESTATÍSTICA
THIAGO GENTIL RAMIRES
iii
RELATORIO DE ESTÁGIO CURRICULAR
Relatório submetido a
Coordenação do curso de
Estatística da Universidade
Estadual de Maringá como
Requisito parcial para a
Obtenção do diploma em
Graduação em estatística
Orientadora: Prof. Daniele
Cristina Tita Granzotto
MARINGÁ
OUTUBRO DE 2010
iv
Thiago Gentil Ramires
Analise de sobrevivência em pacientes com problemas
renais.
Relatório submetido a
Coordenação do curso de
Estatística da Universidade
Estadual de Maringá como
Requisito parcial para a
Obtenção do diploma em
Graduação em estatística
Aprovada em ___/___/_____
Banca Examinadora
_________________________________________
Profª Msc. Daniele Cristina Tita Granzotto(Orientadora)
Universidade Estadual de Maringá – UEM
_________________________________________
Profª Dra.Rosangela Getirana Santana
Universidade Estadual de Maringá – UEM
_________________________________________
Profº Dr. Carlos Aparecidos dos Santos
Universidade Estadual de Maringá – UEM
v
RESUMO
Dada a relevância e o aumento de casos de Insuficiência Renal Crônica no
Brasil, faz-se necessário o estudo de ferramentas estatísticas apropriadas que
auxiliem na avaliação de fatores determinantes na incidência de morte dessa
doença. Os dados disponibilizados pelo Instituto do Rim de Maringá, no período
de 1978 à 2010. Adotou-se a metodologia de análise de sobrevivência foi feito a
fim de para modelar os tempos de vida destes pacientes e determinar quais os
fatores que mais afetam sua sobrevida. Durante a execução deste trabalho, o
modelo de regressão Weibull foi considerado e todas as técnicas necessárias
para modelagem, verificação e inferências para este modelo citado são aqui
apresentadas.
Análise de sobrevivência, com o propósito de modelar o tempo de vida dos
pacientes e assim identificar fatores determinantes com (sexo, pressão alta,
diabetes, imc). O modelo de regressão Weibull foi considerado o mais bem
ajustado, que apresentou sexo, pressão alta, cor, indicador de hepatite B entre
outras, fatores que influenciam no tempo de vida de pacientes com problemas
renais.
Palavras-chave: Diálise renal, análise de sobrevivência, análise paramétrica e
não paramétrica.
vi
AGRADECIMENTOS
Primeiramente a Deus, por sempre me ajudar a conquistar meus sonhos.
A minha mãe, Janet Gentil Ramires, que sempre me apoiou com meus
estudos.
Meu pai, Ademir Ramires, pessoa fundamental em nossa família.
Ao meu avô, que nos deixou esse ano, pessoa que sinto muito saudade e que
infelizmente não pode compartilhar esse momento da minha vida.
A minha avó, pessoa que sempre batalhou na vida e que ainda continua muito
forte fazendo parte da minha família.
Ao meu irmão Juliano Gentil Ramires, que sempre esta disposto a me ajudar.
A minha Prof. Rosangela, que foi um dos professores com que mais me
identifiquei na faculdade e que sempre me ajudou.
A Prof. Daniele em que me ajudou com todas as duvidas em meu trabalho.
A Andréa, orientadora do meu estagio, onde sem ela seria impossível ter
realizado este trabalho.
A todos do departamento de estatística da UEM
Aos amigos das republicas Pé de Pano e Kubanacan, que vão deixar
saudades desses 4 anos em que passamos juntos.
vii
Sumário
Capítulo 1 - Introdução ....................................................................................... 10
1.1- Objetivos ................................................................................................... 12
Capítulo 2 – Hemodiálise .................................................................................... 13
2.1. Historia da hemodiálise ......................................................................... 13
2.2. Insuficiência renal crônica ..................................................................... 13
2.3. Tratamento ............................................................................................. 14
Capítulo 3 – Análise de Sobrevivência ............................................................... 16
3.1. Procedimentos para Analisar Dados na Ausência de Censura ............ 18
3.2. Estimadores Não-Paramétricos ............................................................ 21
3.2.1 Estimador de Kaplan-Meier ................................................................. 22
3.2.2 O Teste de Log-Rank ........................................................................... 24
3.3 Estimadores Paramétricos ........................................................................ 24
3.3.1 Modelo Exponencial .......................................................................... 25
3.3.2 Modelo Weibull ................................................................................... 27
3.3.3 Modelo Log-Normal ............................................................................. 28
3.3.4 Modelo Gama-Generalizada ................................................................. 30
3.4. Método de Estimação ............................................................................ 31
3.5. Obtenção do Modelo Paramétrico ......................................................... 32
3.6 Comparação de modelos e seleção das covariáveis .............................. 33
3.7 Teste da razão de verossimilhanças....................................................... 34
3.8 Escolha de um modelo paramétrico ...................................................... 34
3.9 Adequação do modelo ajustado ............................................................. 35
Capítulo 4 - Resultados ....................................................................................... 37
4.1 – Análise Não-Paramétrica ........................................................................ 39
4.2 – Análise Paramétrica ................................................................................ 42
4.2.1 - Verificação do ajuste ....................................................................... 46
4.2.2 - Estimativa dos Parâmetros do Modelo Ajustado Weibull............... 49
4.2.3 - Análise de resíduos .......................................................................... 50
Capítulo 5 – Conclusão ....................................................................................... 52
Bibliografias ........................................................................................................ 54
Anexo A Programa no SAS. .......................................................................... 57
Anexo B Programa no R .................................................................................. 61
10
Capítulo 1 - Introdução
No início da década de 60 a diálise era procedimento experimental e medida
heróica utilizada em casos selecionados de insuficiência renal aguda. Evoluiu,
tornando-se tratamento rotineiro capaz de manter vivos portadores de insuficiência
renal crônica terminal (IRCT).
Dada a relevância e o aumento de casos de Insuficiência Renal no Brasil,
faz-se necessário o estudo de ferramentas estatísticas apropriadas que auxiliem no
discernimento dos fatores que mais influenciam na incidência de morte dessa
doença. As técnicas de análise de sobrevivência são aqui consideradas, pois se
ajustam cada vez mais aos dados que frequentemente são encontrados em vários
tipos de estudos, especialmente, os estudos clínicos e observacionais.
Qualquer que seja o tipo de estudo com pacientes, geralmente há uma
variável de interesse, também chamada de variável dependente ou resposta. Essa
variável pode ser o número de casos de determinada doença, ou a sua incidência,
ou a sua probabilidade de ocorrência, ou outra medida que vise descrever a
freqüência com que a doença ocorre. Às vezes, a variável dependente de interesse
é o tempo decorrido até o aparecimento de algum evento, e aí se incluem os
estudos de análise de sobrevivência. Há, ainda, uma ou mais variáveis,
denominadas independentes, preditoras ou covariáveis, cujo relacionamento com a
variável dependente é o objetivo do estudo de hemodiálise, e nesse contexto, a
análise quantitativa é imprescindível, pois os modelos estatísticos expressam a
variável dependente como uma função matemática conhecida das variáveis
independentes. Há, então, o interesse em se verificar o efeito de fatores de risco ou
de fatores prognósticos (sejam eles quantitativos ou qualitativos) no tempo de
sobrevivência de um indivíduo ou de um grupo, bem como definir as probabilidades
de sobrevida em diversos momentos no seguimento do grupo. Considera-se
sobrevida, o tempo desde a entrada do indivíduo no estudo (data do começo da
hemodiálise) até a ocorrência do evento de interesse (falha) ou até a censura (perda
por tempo de observação incompleto) na observação (Kleinbaum, 1995).
11
O objetivo deste trabalho é estudar as covariáveis que afetam (e como
afetam) o tempo até a ocorrência do evento de interesse. As vaiáveis do estudo
foram: Idade, Sexo, Cor, Tempo (em meses), Tipo Sanguíneo, Transplante, IMC,
AntiHBS, Diabetes, Censura e Pressão dentro dos 306 casos.
Os dados foram obtidos junto ao Instituto do Rim de Maringá, onde
observamos os pacientes inscritos no programa de hemodiálise do ano de 1978 ao
ano de 2010. Essa coleta foi obtida diariamente pelo próprio Instituto respeitando as
normas da empresa.
A principal limitação do estudo foi a perda de informação (algumas variáveis
deixaram de ser observadas ou foram perdidas), desta forma alguns pacientes foram
excluídos da análise.
Outro complicador nesta análise são as controvérsias de como tratar os óbitos
por outra causa que não a doença de interesse ou os óbitos por causa
desconhecida. Há autores que analisam estes pacientes como falha e, neste caso, a
taxa de sobrevida reflete a mortalidade geral para este grupo de pacientes
(sobrevida global). Neste estudo consideramos todos os óbitos como falha, pois
pacientes com problemas renais passam a apresentar diversos tipos de problemas
no organismo, onde a maioria deles estão diretamente relacionados devido ao mau
funcionamento dos rins.
A escolha do modelo a ser utilizado é um muito importante na análise
paramétrica em confiabilidade, uma vez que a utilização de um modelo inadequado
para um determinado conjunto de dados pode comprometer a análise estatística,
provocando viés nos resultados obtidos. Neste estudo optou-se por utilizar uma
estratégia de seleção de modelos derivada da proposta de Collett (1994). São
utilizados seis passos no processo de seleção. Descritos no capitulo 3.5.
Após a modelagem procurou-se ajustar o modelo à uma distribuição
paramétrica, onde foram utilizados métodos gráficos e testes estatístico como o
Teste da Razão de Verossimilhança. O modelo que melhor se adequou aos dados
foi um modelo Weibull.
Com a verificação do ajuste do modelo, em geral obtemos um bom ajuste
com as covariáveis selecionadas e as seguintes interpretações foram feitas para os
parâmetros:
12
1.1- Objetivos
O objetivo deste trabalho é estudar os fatores que afetam (e como afetam) o
tempo até a ocorrência do óbito por insuficiência renal.
Assim, temos o interesse em identificar variáveis que estão associadas ao tempo
de vida dos pacientes, construir um modelo de sobrevivência que explique o
comportamento das variáveis no modelo e assim, estimar parâmetros, via método de
máxima verossimilhança, do modelo ajustado.
À partir do modelo construído, temos por objetivo fazer algumas estimativas
pertinentes, além de construir intervalos de confianças e teste de hipóteses para os
parâmetros selecionados
13
Capítulo 2 – Hemodiálise
2.1. Historia da hemodiálise
Melhorias importantes ocorreram nos serviços de diálise do Brasil, sendo
reconhecido como programa de substituição renal no ano de 1974. Alguns
parâmetros tornaram-se regra nas unidades de diálise brasileiras, como o
tratamento da água por osmose reversa e o uso de máquinas de proporção.
Assim, na última década, várias inovações tecnológicas foram incorporadas
ao procedimento de hemodiálise, tanto quanto à automação das máquinas como
quanto aos dispositivos de segurança, medicações, dentre outros. Apesar dos
avanços tecnológicos, os registros de diálise do mundo não demonstram melhora da
sobrevida concomitante a estes avanços. Logo, não está clara a influência da
tecnologia sobre a mortalidade dos pacientes.
2.2. Insuficiência renal crônica
Uma doença que constitui um grave problema médico e de saúde pública,
caracterizada pela incapacidade dos rins em excretar substâncias tóxicas do
organismo de forma adequada (Cardozo et al. 2006). As causas da Insuficiência
Renal são muitas, algumas das quais acarretam uma diminuição rápida da função
renal, muitas vezes, com valores inferiores a 1 ou 2% do índice normal (Insuficiência
Renal Aguda). Outras causas de IR acarretam uma perda gradual e progressiva de
grande parte dos néfrons funcionantes (Insuficiência Renal Crônica).
Segundo Marques et al. (2005), os resultados finais da doença são sinais e
sintomas tais como: cefaléia, fraqueza, anorexia, náuseas, vômitos, cãibras, diarréia,
oligúria (secreção insuficiente de urina), edema, confusão mental, sede, perda do
olfato e paladar, sonolência, hipertensão arterial e tendência à hemorragia
14
decorrentes da incapacidade renal, além de palidez cutânea, xerose (ressecamento
patológico da pele), dismenorréia (cólica antes ou durante a menstruação),
amenorréia (ausência de fluxo menstrual), atrofia testicular, impotência, déficit de
atenção, espasmos musculares e coma.
2.3. Tratamento
Os pacientes que, por algum motivo, perderam a função renal e
irreparavelmente atingiram a fase terminal da doença, têm hoje três métodos de
tratamento: a hemodiálise, a diálise peritoneal e o transplante renal.
De acordo com SBN (2009), a hemodiálise promove a retirada das
substâncias tóxicas, água e sais minerais do organismo por meio da passagem do
sangue por um filtro. Em geral, é realizada 3 vezes por semana, em sessões com
duração média de 3 a 4 horas, com o auxílio de uma máquina, dentro de clínicas
especializadas neste tratamento como mostra a Figura2.1. Para que o sangue passe
pela máquina é necessário a instalação de um cateter ou a confecção de uma fístula
(procedimento realizado mais comumente nas veias do braço), permitindo que essas
fiquem mais calibrosas e forneçam o fluxo de sangue adequado para ser filtrado.
Figura 2.1: Tratamento de hemodiálise.
A diálise peritoneal funciona de maneira diferente. Ao invés de utilizar um filtro
artificial para “limpar” o sangue, é utilizado o peritônio, que é uma membrana
localizada dentro do abdômen e que reveste os órgãos internos. É inserido um
15
cateter flexível no abdômen, e assim, é feita a infusão de um líquido semelhante a
um soro na cavidade abdominal. Esse líquido chamado “banho de diálise”, entra em
contato com o peritônio, e por ele é feita a retirada das substâncias tóxicas do
sangue. A diálise peritoneal pode ser feita na própria casa do paciente, ou ainda no
local de trabalho, já que o processo de troca do banho de diálise é feito pelo próprio
paciente ou por algum familiar.
Segundo Santos (2005), os avanços recentes da terapia dialítica não têm se
correlacionado diretamente com a redução da mortalidade nos últimos anos, talvez
pelo fato de que os pacientes com doença renal crônica são mais idosos e
apresentam maior número de co-morbidades ao iniciarem a terapia dialítica.
Os tratamentos dialíticos não chegam a substituir integralmente a função
renal, mas fornecem condições para manter a sobrevida do paciente, permitindo que
este retornem a uma vida normal e produtiva, prevenindo até a morte precoce. O
transplante renal é o único tipo de terapia que pode oferecer uma reabilitação quase
total. Segundo Castanheira et al. (2005), a diálise não é uma cura, permitindo
apenas uma reposição da função renal normal.
Para estudar os dados relacionados à diálise, utilizaremos de técnicas de
análise de sobrevivência, a qual será aplicada para estudar o tempo até os
pacientes experimentarem o evento de interesse, neste caso, o óbito. Estas técnicas
são justificadas, uma vez que, alguns dos tempos em estudo são parcialmente
observados, ou seja, censurados. Neste caso, pacientes deixam de experimentar o
evento de interesse ou simplesmente abandonam ao tratamento.
Ainda devemos pensar: quais variáveis influenciam no tempo de vida de
pessoas com insuficiência renal; ou, qual o modelo mais adequado para descrever o
tempo de sobrevivência dos pacientes com insuficiência renal?
Há controvérsias sobre como tratar os óbitos por outra causa que não a
doença de interesse ou os óbitos por causa desconhecida. Há autores que analisam
estes pacientes como falha e, neste caso, a taxa de sobrevida reflete a mortalidade
geral para este grupo de pacientes (sobrevida global).
Há ainda, casos em que o paciente morre por outros motivos onde, a causa
principal é a insuficiência renal. Neste trabalho, qualquer que seja a causa morte,
trataremos apenas do problema de insuficiência renal.
16
Capítulo 3 – Análise de Sobrevivência
Qualquer que seja o tipo de estudo com pacientes, geralmente há uma
variável de interesse, também chamada de variável dependente ou resposta. Essa
variável pode ser o número de casos de determinada doença, ou a sua incidência,
ou a sua probabilidade de ocorrência, ou outra medida que vise descrever a
freqüência com que a doença ocorre. Às vezes, a variável dependente de interesse
é o tempo decorrido até o aparecimento de algum evento, e aí se incluem os
estudos de análise de sobrevivência. Outro fator determinante para um estudo em
analise de sobrevivência é a observação parcial da resposta, ou seja, a presença de
tempos censurados.
Há, ainda, uma ou mais variáveis, denominadas independentes ou preditoras,
cujo relacionamento com a variável dependente é a influencia no tempo de
sobrevivência, e nesse contexto, a análise quantitativa é imprescindível, pois os
modelos estatísticos expressam a variável dependente como uma função
matemática conhecida das variáveis independentes. Há, então, o interesse em se
verificar o efeito de fatores de risco ou de fatores prognósticos (sejam eles
quantitativos ou qualitativos) no tempo de sobrevivência de um indivíduo ou de um
grupo, bem como definir as probabilidades de sobrevida em diversos momentos no
seguimento do grupo. Considera-se sobrevida, o tempo desde a entrada do
indivíduo no estudo (data do começo da hemodiálise) até a ocorrência do evento de
interesse (falha) ou até a censura (observação parcial da resposta) (Kleinbaum,
1995).
Em estudos de sobrevivência, as pessoas são acompanhadas por meio da
ocorrência de um evento. Esse evento pode ser, por exemplo, o diagnóstico da
doença, ou a realização de cirurgia, ou o inicio de um tratamento. Geralmente, as
pessoas são incluídas no estudo em diferentes instantes, tempos estes chamados
de zero, ou inicio do estudo. Os inícios são, portanto, truncados à esquerda, ou seja,
a observação de cada indivíduo começa a partir de determinado momento, sem
levar em conta o que aconteceu no passado (Cox & Oakes, 1984). O evento final
corresponde geralmente ao óbito ou a um determinado evento que indique a
modificação do estado inicial (cura, recorrência, retorno ao trabalho etc.) e como se
comporta esta associação.
17
Este evento final, ou evento de interesse, geralmente refere-se a eventos
indesejáveis, como o aparecimento de doença ou morte (Kleinbaum, 1995). Em
estudos em que há necessidade de tempo para observar a resposta (ou
acompanhamento), pode ocorrer que alguns indivíduos não sejam observados até a
ocorrência da falha, ou seja, tenham seu tempo de observação incompleto. Esse tipo
de perda no tempo de observação é denominado censura. Isso pode ocorrer quando
os indivíduos permanecem sem mudança de estado ao término do estudo, ou
falecem por causas não relacionadas com a doença de interesse, ou abandonam o
estudo, ou fogem à observação. Por vezes, a cura e/ou recuperação também podem
ser consideradas como censura na observação. Os estudos em que existe censura
são denominados com observações incompletas. Uma suposição importante é a de
que os indivíduos censurados em determinado tempo t são representativos de todos
os indivíduos que estavam sujeitos ao risco de ter falha em t (Szklo & Nieto, 2000).
Há dois tipos de estudos que podem utilizar o tempo como variável de
interesse. Um deles é o estudo experimental (ensaios clínicos controlados
aleatorizados), indicado para avaliar formas de tratamento. Outro tipo são os
estudos de coorte observacionais, cujos dados podem ser obtidos pela coleta direta
em prontuários médicos ou em bases de dados já existentes (dados secundários).
Essas fontes de dados secundários podem ser de base hospitalar, por
exemplo (registros hospitalares de câncer) ou populacional (registros de câncer de
base populacional). Registros de base hospitalar são aqueles que se referem a
todos os casos tratados e acompanhados em uma instituição. Fornecem
informações tanto para a administração do hospital quanto para pesquisadores
interessados em informações sobre os resultados do tratamento nos diferentes
grupos e fatores de risco ou fatores prognósticos. Contribuem ainda na atenção ao
paciente individualmente, uma vez que asseguram o seguimento destes pacientes
(Young, 1991).
Na análise de sobrevivência, os parâmetros mais importantes são as
probabilidades de sobrevivência no curso de cada um dos intervalos considerados e
a probabilidade de sobrevida acumulada (tratada correntemente como taxa de
sobrevida), isto é, a probabilidade de sobreviver do tempo zero até o tempo final
considerado. Esta última equivale à probabilidade de sobreviver em todos os
intervalos anteriores ao momento considerado e, usualmente, é denominada S(t)
Função de sobrevivência. A escolha do modelo estatístico mais apropriado
18
dependerá do tipo do delineamento do estudo e de seus objetivos, das variáveis
estudadas e da maneira pela qual foram coletados e categorizados os dados. A
estimativa da probabilidade de sobrevida é, com certeza, mais válida e mais precisa
para o período inicial do seguimento, no qual estão disponíveis informações sobre a
maioria dos pacientes. Nos períodos posteriores, as informações podem ficar
limitadas devido às perdas de seguimento e ao pequeno número de eventos
(Fletcher et al., 1996).
Somente nas décadas de 1950 e de 1960 apareceram as primeiras
propostas de estimadores das probabilidades de sobrevivência que incorporavam a
censura, modelos para observações incompletas.
3.1. Procedimentos para Analisar Dados na Ausência de Censura
Seja T uma variável aleatória continua e positiva, normalmente caracterizada
pelo tempo até a ocorrência de determinado evento de interesse. A função
densidade de probabilidade f(t) é dada por:
Esta função pode ser interpretada como a probabilidade do indivíduo experimentar
um evento de interesse, ou falha, em um intervalo instantâneo de tempo.
Na ausência de censura, (todos os pacientes experimentaram o evento antes
do fim do estudo), a função f(t) pode ser estimada a partir de tabelas de distribuição
de freqüência. Nestas tabelas os valores observados de T são distribuídos em
classes e, para cada classe x, calcula-se f(t):
A função de sobrevivência, ou seja, a probabilidade de um indivíduo
sobreviver por mais de um determinado t, é dada por:
19
Uma relação importante a ser observada, é a função acumulada que pode ser
escrita em termos da função de sobrevivência, sendo
onde
Como estamos considerando dados não censurados, a função de
sobrevivência pode ser estimada por:
onde tinf é o limite inferior do intervalo de tempo considerado x.
Há ainda a fórmula da função de riscos (hazard function), ou λ(t), também
conhecida como força instantânea de mortalidade ou taxa instantânea de falha em
um período curto de tempo, dado que um indivíduo estava vivo até o instante t-1. A
função λ(t) é dada por:
que é inversamente proporcional à função de sobrevivência, ou seja, quando o risco
aumenta a probabilidade de sobrevivência diminui e vice-versa.
Um estimador para a função de risco com dados não censurados pode ser
dado por:
classeaatéfalharamnãoquen
xclassenasocorrênciantX
_____º
)(__º)(ˆ
20
número de eventos observados no intervalo de classe x divididos pelo número de
pacientes em risco no inicio do intervalo x e amplitude de x.
A função de risco pode ter diversos formatos, podendo ser constante,
crescente, decrescente ou ainda assumir outros formatos como, uma forma de
banheira, sino etc. A Figura seguir exemplifica alguns destes casos.
Figura 3.1 – Alguns tipos de comportamento da função de risco
Podemos também encontrar a função de risco acumulada Λ(t), onde mede o
risco de ocorrência no intervalo de tempo, no qual também é uma taxa, mas não
esta restrita ao intervalo [0;1]. A função de risco acumulada é dada por:
onde seu estimador para dados não censurados é escrito como:
21
A partir das funções e relações mostradas a cima é possível encontrar
algumas relações fundamentais que podem ajudar no estudo. As principais relações
são dadas por:
Se considerarmos uma análise de dados sem censura e também com
censura, técnicas de análise estatística descritiva podem ser realizadas usando-se
medidas de dispersão (média, mediana, amplitude, desvio-padrão e freqüência),
além das formulações apresentadas anteriormente.
3.2. Estimadores Não-Paramétricos
As principais técnicas é o estimador atuarial e o estimador do produto-limite
de Kaplan-Meier. O método atuarial para dados incompletos (Lee, 1992; Selvin,
1996) calcula as probabilidades de sobrevida em intervalos fixados previamente, e o
número dos expostos a risco corresponde aos pacientes vivos ao início de cada
intervalo x. O número de expostos (lx), é ajustado de acordo com o número de
censuras que ocorreram neste período, sob a suposição de que as censuras
ocorreram uniformemente durante o período x e que, a experiência subseqüente dos
casos censurados é a mesma daqueles que permanecem em observação (Kahn &
22
Sempos,1989). Neste trabalho, utilizaremos apenas do estimador de Kaplan-Meier,
como apresentado aseguir.
3.2.1 Estimador de Kaplan-Meier
Na análise de sobrevida pelo método de Kaplan-Meier (Kaplan & Meier, 1958;
Lee, 1992; Kleinbaum, 1995) os intervalos de tempo não são fixos, mas
determinados pelo aparecimento de uma falha (por exemplo, o óbito). Nessa
situação, o número de óbitos em cada intervalo deve ser um. Esse é um método não
paramétrico, ou seja, que independe da distribuição de probabilidade (Colton, 1979),
e para calcular os estimadores, primeiramente, deve-se ordenar os tempos de
sobrevida em ordem crescente. Os sobreviventes ao tempo t (lt) são ajustados pela
censura, ou seja, os pacientes censurados entram no cálculo da função de
probabilidade de sobrevida acumulada até o momento de serem considerados como
perda, o que propicia o uso mais eficiente das informações disponíveis (Szklo &
Nieto, 2000).
Define-se a função S(t) por um estimador conhecido como estimador produto
limite de Kaplan-Meier, pois é o limite do produto dos termos até o tempo t:
e lj = numero de expostos ao risco no inicio do período.
Tendo que a função de risco acumulada é dada por:
pode-se estimar qualquer das funções através das relações fundamentais(GIOLO,
S. R).
Métodos de cálculo para estimar a variância e os intervalos de confiança da
probabilidade de sobrevivência estão disponíveis e são bem descritos por Kleinbaum
(1995), Lee (1992), Parkin & Hakulinen (1991), Selvin (1996), e Szklo & Nieto
(2000). Esta estimativa enfatiza o tamanho do efeito e indica a faixa de valores
23
plausíveis para a sobrevida. A variância do estimador de Kaplan-Meier, na qual é
dada pelo estimador de Greenwood é dada por:
onde dj é o numero de falhas em determinado tj, e nj é o numero de quantos não
falharam em determinado tj (exclusive).
Se formos construir um intervalo de confiança para o estimador de Kaplan-
Meier os limites seriam calculados pela seguinte expressão:
entretanto esse intervalo permite valores negativos e maiores que 1, o que é
incompatível com a definição de sobrevivência. Para evitar esse problema basta
construir um intervalo simétrico para o risco aplicando ln assim a expressão fica:
onde os limites são dados por:
e o desvio padrão dado por:
24
3.2.2 O Teste de Log-Rank
A aplicação desses modelos permite comparar o conjunto de curvas de
sobrevida das diversas categorias de uma única variável independente. Para
comparar as curvas de sobrevida acumulada entre diferentes categorias de uma
mesma variável, recomenda-se utilizar o teste log-rank (Cox & Oakes, 1984;
Kleinbaum, 1995), que se baseia no confronto entre o evento de interesse
observados nos dois grupos e aqueles esperados. A diferença entre o evento de
interesse observados e esperados é avaliada por meio do teste do Qui-quadrado.
Com a estatística de log-rank podemos testar as hipótese de que as curvas
de sobrevivências são iguais para os dois grupos ou o oposto. A estatística é dada
por:
onde N1= total de eventos observados no estrato 1 e E1= total de eventos esperados
no estrato 1. O calculo da variância é obtido por:
A aplicabilidade deste teste será vista nos resultados desta pesquisa.
3.3 Estimadores Paramétricos
Para determinarmos as variáveis que serão usadas no modelo, foi utilizado
previamente a distribuição gama-generalizada, pois assume diversos formatos na
função de risco e de sobrevivência facilitando a modelagem e também engloba as
distribuições de probabilidade: Exponencial, Weibull e a Log-Normal. Estas
distribuições são apresentadas a seguir.
25
3.3.1 Modelo Exponencial
A distribuição exponencial tem uma característica importante a ser utilizada
em analise de sobrevivência, pois ela possui a taxa de risco constante, propriedade
de falta de memória. Sua função densidade de probabilidade é dada por:
e sua função de sobrevivência dada por:
Como já dito, a sua taxa de falha é constante, o que pode ser claramente
visualizado dividindo a função densidade de probabilidade pela função de
sobrevivência (“relações fundamentais“) o que resulta na função de risco que é dada
por:
Nas Figuras 3.2 e 3.3 estão presentes algumas formas que a função de
sobrevivência e a função de risco da distribuição exponencial podem assumir,
quando variamos os valores de seu parâmetro.
26
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0.0
0.2
0.4
0.6
0.8
1.0
t
S(t
)
0,5
1,0
1,5
3,0
Figura 3.2: Função de sobrevivência da exponencial
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
t
h(t
)
0,5
1,0
1,5
3,0
Figura 3.3: Função de risco da exponencial
27
3.3.2 Modelo Weibull
Proposto por Weibull (1954), este modelo representa uma generalização da
distribuição exponencial e, de acordo com Lawless (1982), é bastante utilizada no
ajuste de dados de confiabilidade nas diversas áreas do conhecimento, entre elas a
medicina e engenharia. Na engenharia, a distribuição Weibull é a principal função de
confiabilidade, sendo utilizada para modelar a distribuição da vida útil e taxa de risco
em produtos industriais.
Uma característica desta distribuição é que, se γ=1, a distribuição weibull é
equivalente à distribuição exponencial. Sua função densidade de probabilidade é
dada por:
,
onde α representa o 63º percentil. A função de sobrevivência e de risco será:
e
É muito importante salientar que o modelo Weibull é muito utilizado na prática
por apresentar uma grande variedade na forma da função de risco sendo:
Crescente para γ>1
Decrescente para γ<1
Constante para γ=1 (modelo Exponencial)
Alguns dos diversos comportamentos da função de sobrevivência e da função
de risco são mostrados nas Figuras 3.4 e 3.5:
28
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
t
h(t
)
0,5
1,0
1,5
3,0
1,5
Figura 3.4: Função de sobrevivência da Weibull
0.0 0.5 1.0 1.5 2.0 2.5
0.0
0.2
0.4
0.6
0.8
1.0
t
S(t
)
0,5
1,0
1,5
3,0
1,5
Figura 3.5: Função de risco da Weibull
3.3.3 Modelo Log-Normal
A distribuição log-normal é muito usada para ajustar dados referentes a
confiabilidade, assim como a distribuição Weibull. De acordo com Nelson (1990),
existem diversas aplicações deste modelo em testes para o tempo de falha de
29
produtos. Uma discussão detalhada sobre este modelo pode ser encontrada em
Crow e Shimizu (1988). Essa distribuição é também muito utilizada neste tipo de
análise, pois o logaritmo do tempo possui uma distribuição normal com média μ e
desvio-padrão σ, ou seja, os parâmetros estimados desta distribuição é de fácil
interpretação. A função densidade de probabilidade da distribuição log-normal é
dada por:
A função taxa de falha da distribuição log-normal não tem uma forma fechada.
Ela não é monótona, como o caso da distribuição Weibull. Ela cresce, atinge um
valor máximo, e depois decresce, ou seja, o risco de falha instantânea diminui com o
tempo. O comportamento da função de sobrevivência e função de risco são
mostrados nas Figuras 3.6 e 3.7 para alguns valores de μ e σ.
0 2 4 6 8 10
0.0
0.2
0.4
0.6
0.8
1.0
t
S(t
)
0,5
1,0
1,5
3,0
1,5
Figura 3.6: Função de sobrevivência da log-normal
σ>0, μ>0
30
0.0 0.5 1.0 1.5 2.0 2.5
0.0
0.2
0.4
0.6
0.8
1.0
t
h(t
)
0,5
1,0
1,5
3,0
1,5
Figura 3.7: Função de risco da log-normal
3.3.4 Modelo Gama-Generalizada
A distribuição Gama-Generalizada, tem uma grande utilidade em análise de
sobrevivência, por englobar as três distribuições citadas anteriormente, desta forma
facilmente podemos construir um modelo através desta distribuição e em um
segundo momento, inferir para um modelo mais simples. Sua função densidade é
dada por:
A função de sobrevivência será:
onde
α>0
k= inteiro positivo
31
3.4. Método de Estimação
Afim de estimar os parâmetros do modelo, utilizaremos o método de máxima
verossimilhança, que trata o problema de estimação da seguinte forma: baseado nos
resultados obtidos pela amostra, qual é a distribuição entre todas aquelas definidas
pelos possíveis valores de seus parâmetros, com maior possibilidade de ter gerado
tal amostra? Em outras palavras, se por exemplo a distribuição de falha é a Weibull,
para cada combinação diferente de α e β tem-se diferentes distribuições de Weibull.
O estimador de máxima verossimilhança escolhe aquele par de α e β que melhor
explique a amostra observada (Colosimo, 1995).
Suponha uma amostra de observações t1, t2, ..., tn de uma certa população de
interesse. Considere inicialmente que todas as observações são não-censuradas. A
população é caracterizada pela sua função de densidade de probabilidade. Por
exemplo, se f(t)=αexp(-tα), significa que as observações vem de uma distribuição
exponencial com parâmetro a ser estimado. A função de verossimilhança para um
parâmetro genérico θ é:
A dependência de f em θ é preciso agora ser mostrada pois L é função de θ .
Nesta expressão, θ pode estar representando um único parâmetro ou um vetor de
parâmetros. Por exemplo, no modelo log-normal, θ =(μ,σ). A tradução em termos
matemáticos para a frase “a distribuição que melhor explique a amostra observada”
é achar o valor de θ que maximize a função L(θ). Isto é, achar o valor de θ que
maximiza a probabilidade da amostra observada ter ocorrido.
A função de verossimilhança L(θ) mostra que a contribuição de cada
observação não-censurada é sua função de densidade. A observação parcial da
resposta somente nos informam que o tempo de falha é maior que o tempo de
censura observado e portanto, que a sua contribuição para L(θ) é a sua função de
sobrevivência S(t). As observações podem então ser divididas em dois conjuntos, as
r primeiras são as não-censuras (1,2, ..., r) e as n-r seguintes, são as censuradas
32
(r+1, r+2, ..., n). Assim a função de máxima verossimilhança assume a seguinte
forma:
Entretanto, se o modelo selecionado for usado inadequadamente para certo
conjunto de dados, toda a análise estatística fica comprometida e
consequentemente, as inferências à partir do modelo, ficam destorcidas.
3.5. Obtenção do Modelo Paramétrico
A escolha do modelo a ser utilizado é muito importante na análise
paramétrica, uma vez que a utilização de um modelo inadequado para um
determinado conjunto de dados pode comprometer a análise estatística, provocando
viés nos resultados obtidos. Existem diversas maneiras de se verificar a adequação
de um modelo para dados de sobrevivência. Há casos em que a utilização de um
modelo é definida por sua simplicidade computacional como, segundo Nelson
(1990), e Souza (2001), é o caso do modelo exponencial que, por apresentar
resultados simples e bastante conhecidos é muitas vezes utilizados de forma
indevida. Cain (2002) apresenta simulações de Monte Carlo para distinguir entre a
distribuição log-normal e Weibull.
Neste estudo optou-se por utilizar uma estratégia de seleção de modelos
derivada da proposta de Collett (1994). São utilizados seis passos no processo de
seleção.
Passo 1 – ajustar todos os modelos contendo uma única covariável. Incluir todas as
covariáveis que forem significativas ao nível de 0,10. É aconselhável utilizar o teste
da razão de verossimilhanças neste passo.
Passo 2 – as covariáveis significativas no passo 1 são, então, ajustadas
conjuntamente. Na presença de certas covariáveis, outras podem deixar de ser
33
significativas. Consequentemente, ajusta-se modelos reduzidos, excluindo uma
única covariável de cada vez. Verificam-se as covariáveis que provocam um
aumento estatisticamente significativo na estatística da razão de verossimilhanças.
Somente aquelas que atingirem a significância permanecem no modelo.
Passo 3 – ajusta-se um novo modelo com as covariáveis retiradas no passo 2. Neste
passo, as covariáveis excluídas no passo 2 retornam ao modelo para confirmar que
elas não são estatisticamente significativas.
Passo 4 – as eventuais covariáveis significativas no passo 3 são incluídas ao
modelo juntamente com aquelas do passo 2. Neste passo, retorna-se com as
covariáveis excluídas no passo 1 para confirmar que elas não são estatisticamente
significativas.
Passo 5 – ajusta-se um modelo incluindo-se as covariáveis significativas no passo 4.
Neste passo é testado se alguma delas pode ser retirada do modelo.
Passo 6 – utilizando as covariáveis que sobreviveram ao passo 5, ajusta-se o
modelo final para os efeitos principais. Para completar a modelagem, deve-se
verificar a possibilidade de inclusão de termos de interação dupla entre as
covariáveis incluídas no modelo. O modelo final fica determinado pelos efeitos
principais identificados no passo 5 e os termos de interação significativos
identificados neste passo.
Em cada passo do processo de seleção de covariáveis, a estatística de teste,
apresentada, foi obtida utilizando-se o teste da razão de verossimilhanças com uma
distribuição qui-quadrado de referência com graus de liberdade igual ao número de
termos excluídos (diferença entre o número de parâmetros dos dois modelos a
serem comparados).
3.6 Comparação de modelos e seleção das covariáveis
34
Ao efetuar os passos de escolha das covariáveis “modelagem estatística”, é
utilizado o teste da Razão de Verossimilhança (TRV), comparado com os modelos
nulos ou completos segundo Collett (1994), assim decidindo quais serão as
covariáveis do modelo.
Uma vez escolhido o conjunto de covariáveis prognósticas, o interesse se
concentra agora em investigar a utilização dos modelos mais simples (casos
especiais da gama generalizada), mas não menos adequado aos dados. O teste da
razão de verossimilhança também é utilizado neste caso.
3.7 Teste da razão de verossimilhanças
Este teste é baseado na função de verossimilhança e envolve a comparação
dos valores do logaritmo da função de verossimilhança maximizada sem restrição e
sob a hipótese nula de que os modelos são adequados. A estatística para esse teste
tem uma distribuição qui-quadrado é dada por:
3.8 Escolha de um modelo paramétrico
A escolha do modelo a ser utilizado é muito importante na análise
paramétrica, uma vez que a utilização de um modelo inadequado para um
determinado conjunto de dados pode comprometer a análise estatística, provocando
viés nos resultados obtidos. Existem diversas maneiras de se verificar a adequação
de um modelo para dados de sobrevivência. Há casos em que a utilização de um
modelo é definida por sua simplicidade computacional, como segundo Nelson
(1990), e Souza (2001), é o caso do modelo exponencial que, por apresentar
resultados simples e bastante conhecidos, é muitas vezes utilizados de forma
indevida. Cain (2002) apresenta simulações de Monte Carlo para distinguir entre a
distribuição log-normal e Weibull.
35
O ajuste do “melhor” modelo a ser usado para um conjunto de dados pode ser
verificado, neste artigo, de duas formas: numericamente ou graficamente. A análise
numérica é feita com base na estatística de máxima verossimilhança, a qual
determina como melhor modelo aquele que apresentar o menor valor em módulo, do
log do estimador de máxima verossimilhança (Cavalcanti et al., 2002).
O método gráfico utilizado comparação de modelos ajustados é através da
linearização da função de sobrevivência (Bolfarine et al., 1991). Consiste em fazer
gráficos nos quais o modelo apropriado seja aproximadamente linear. A não
linearidade pode ser percebida visualmente. Neste caso, o gráfico utilizado é de uma
transformação que lineariza a função de sobrevivência do modelo proposto.
Por exemplo, se o modelo exponencial for apropriado aos dados, o gráfico (–
logS(t) vs t) irá resultar em uma linha reta, passando pela origem (0).
A função de sobrevivência de uma distribuição log-normal pode ser
linearizada na forma:
onde Φ -1 são os percentis da normal padrão. Isso significa que o gráfico de Φ-1 (Sˆ(
t)) vs log(t) deve ser linear se o modelo log-normal for adequado. Caso estamos
interessados em linearizar o modelo Weibull, o gráfico log[-log(S(t))] vs. log(t) irá
resultar em uma linha reta, passando pela origem (0); para a adequação do modelo
log-logístico o gráfico log[(1-S(t)/S(t)] vs. log (t).
3.9 Adequação do modelo ajustado
Uma avaliação da adequação do modelo ajustado é parte fundamental da
análise dos dados. No modelo de regressão linear usual, uma análise gráfica dos
resíduos é usada para esta finalidade. Diversos resíduos têm sido propostos na
literatura para avaliar o ajuste do modelo apresentado (Lawless, 1982, Klein e
Moeschberger, 1997, Therneau e Grambsch, 2000).
Nas seções que se seguem, os seguintes resíduos são descritos
36
Resíduos de Cox-Snell (1968) e resíduos padronizados, úteis para examinar
o ajuste global do modelo
Resíduos Martingale, úteis para determinar a forma funcional (linear,
quadrática etc.) de uma covariável, em geral contínua, sendo incluída no
modelo de regressão.
Resíduos Deviance, que auxiliam a examinar a acurácia do modelo para cada
indivíduo sob estudo.
37
Capítulo 4 - Resultados
Dentre os 306 pacientes observados, diversas variáveis foram inclusas no
estudo, e apenas as que poderiam ter relação direta ou indireta com o tempo de
sobrevida do paciente permaneceram.
A inclusão ou exclusão preliminar das variáveis levou em consideração
estudos pré-realizados em hemodiálise e a opinião de pesquisadores da área, e
assim, utilizamos para este estudo as variáveis da Tabela 4.1 (a altura e peso “em
metros” foram transformados em uma nova variável, IMC).
Tabela 4.1: Variáveis em estudo
Variável Descrição Classificação
Idade Idade em que iniciou o tratamento Contínua
Sexo Masculino ou Feminino Categorica
Cor Amarela, Branca, Negra ou Parda Categorica
Tempo Meses em que o paciente permaneceu no estudo Contínua
Sangue A, B, AB ou O Categorica
FatorRH Positivo ou Negativo Categorica
Transplante Indicador de transplante, Falso ou Verdade Categorica
IMC Indice de massa corporica Contínua
AntiHBS Indicador de vacina de hepatite B, Falso ou Verdade Categorica
Censura 0 = Censurado e 1= Falha Categorica
No estudo foram considerados 122 mulheres e 184 homens, onde 42
homens apresentavam problemas de pressão alta enquanto as mulheres
apenas 24 apresentavam problemas de pressão alta. A respeito do problema
de Diabetes o sexo masculino também obteve uma maior freqüência, em um
total de 57 homens enquanto o sexo feminino apresentou apenas 33
mulheres com problemas de Diabetes.
38
Considerando todos os pacientes a média de idade foi de
aproximadamente 61 anos de idade, onde 76% dos pacientes eram de cor
branca. Outra informação relevante é que apenas 56 dos 306 pacientes
conseguiram uma doação de rim. Além disso os tipos sanguíneo mais
apresentados no estudo foram O, com 148 casos seguido de A com 115
casos, levando em conta que o tipo sanguíneo AB obteve apenas 11 casos no
estudo.
Inicialmente, uma análise preliminar do tempo pode ser feita e
visualizada à partir da tabela 4.2.
Tabela 4.2: Medidas descritivas dos tempos
Média 49,82026
Variância 2953,768
Coeficiente de Variação 1,090893
Mediana 29
Primeiro Quartil 12
Terceiro Quartil 68
Mínimo 1
Máximo 306
Assim o tempo médio observado foi de aproximadamente 50 meses, com
desvio padrão de 54,4 meses. Podemos visualizar a assimetria e dispersão dos
tempos à partir da Figura 4.1 que segue.
39
Var 1
-50
0
50
100
150
200
250
300
350
Figura 4.1: Boxplot dos tempos observados
Inicialmente, realizaremos uma análise não-paramétrica afim de verificarmos
o comportamento dos tempos até que os pacientes experimentem o evento de
interesse (óbito).
4.1 – Análise Não-Paramétrica
O primeiro passo para analisar um conjunto de dados em sobrevivência é realizar
uma análise descritiva das variáveis através do Estimador Produto-Limite ou Kaplan-
Meier (Kaplan e Meier, 1958). Uma análise não paramétrica dos tempos é
apresentada afim de verificar o comportamento desses tempos. Além do
comportamento, temos o interesse em analisar as curvas de sobrevivência empírica
na presença de covariáveis. Para isto aplicando o Testes Log-Rank é aplicado com
o intuito de verificar as possíveis covariáveis do modelo de regressão.
Para todas as variáveis classificas como categóricas foram construídas as curvas
de sobrevivência, (Sexo, Cor, Sangue, FatorRH, Transplante, AntiHBS Diabetes e
Pressão).
40
0 50 100 150 200 250 300
0.0
0.2
0.4
0.6
0.8
1.0
Tempo (meses)
S(t
)
MasculinoFeminino
0 50 100 150 200 250 300
0.0
0.2
0.4
0.6
0.8
1.0
Tempo (meses)
S(t
)
COR como causa da insuficiência renal
Amarela
Branca
Negra
Parda
(a) (b)
0 50 100 150 200 250 300
0.0
0.2
0.4
0.6
0.8
1.0
Tempo (meses)
S(t
)
Negativo
Positivo
0 50 100 150 200 250 300
0.0
0.2
0.4
0.6
0.8
1.0
Tempo (meses)
S(t
)
Não
Sim
(c) (d)
0 50 100 150 200 250 300
0.0
0.2
0.4
0.6
0.8
1.0
Tempo (meses)
S(t
)
Sim
Não
0 50 100 150 200 250 300
0.0
0.2
0.4
0.6
0.8
1.0
Tempo (meses)
S(t
)
Sim
Não
41
(e) (f)
0 50 100 150 200 250 300
0.0
0.2
0.4
0.6
0.8
1.0
Tempo (meses)
S(t
)
Sim
Não
0 50 100 150 200 250 300
0.0
0.2
0.4
0.6
0.8
1.0
Tempo (meses)
S(t
)
SANGUE como causa da insuficiência renal
AABBO
(g) (h)
Figura 4.2: Sobrevivências estimadas, via estimador de Kaplan-Meier, para
as covariáveis: (a) Sexo; (b) Cor; (c) FatorRh; (d) Transplante; (e) AntiHBS;
(f) Diabetes; (g) Pressão; (h) Tipo Sanguíneo.
Através das figuras apresentadas em (Figura 4.2 a-h), podemos verificar os
comportamentos das funções de sobrevivência, ponderadas pelas covariáveis em
estudo, covariáveis estas, categóricas.
Nota-se para estas figuras que, visualmente, as curvas de Kaplan-Meier para as
covariáveis Sexo, Cor, Transplante, AntiHBS, Diabetes e Pressão, se mostram
distantes, o que pré-indica que os tempos de sobrevivência se comportam de forma
diferenciadas para os distintos níveis destas covariáveis..
À partir destas figuras, utilizamos do teste de log-rank para verificar, de forma
quantitativa, o quanto as curvas de sobrevivência se comportam de forma distinta,
ou não, para os níveis das covariáveis. O critério utilizado neste trabalho foi o de
manter as covariáveis que apresentarem valores p inferiores a 0,25 (ou 25%), no
teste log-rank. Esta proposta em escolher um nível relativamente modesto de
significância é baseada em recomendações de Bendel e Afifi (1997) para regressão
linear, de Constanza e Afifi (1979) para análise discriminante e de Mickey e
Greenland (1989) para mudanças nos coeficientes do modelo de regressão logística,
Colosimo (2006). As estatísticas são apresentadas na Tabela 4.3.
42
Tabela 4.3: Resultados do teste de log-rank
Covariáveis Valor p
Idade 0,001
Sexo 0,008
Cor 0,01
Sangue 0,99
Fator RH 0,29
Transplante 0,001
IMC 0,001
AntHBS 0,001
Diabets 0,001
Pressão 0,006
Estatística de
teste Log-rank
419,43
6,86
11,16
0,033
1,1
7,53
15,96
800,76
30,92
20,77
Os testes indicaram que apenas as covariáveis Tipo Sanguíneo e FatorRH não apresentaram diferença nas curvas de sobrevivência. Portanto, as covariáveis Sexo, Cor, Transplante, IMC, AntiHBS, Diabetes e Pressão devem ser incluídas no modelo, uma vez que estas apresentam diferença significativa no comportamento dos tempos de vida dos pacientes em estudo
4.2 – Análise Paramétrica
A próxima etapa é definir qual distribuição de probabilidade melhor de ajusta ao
tempo de sobrevida estudado. Para isto, partiu da distribuição Gama Generalizada.
Foram, então, construídos os testes da razão de verossimilhança para indicar quais
variáveis deveram continuar no modelo. Os testes são apresentados na Tabela 4.4.
43
Tabela 4.4: Resultado dos testes da Razão de
verossimilhança
Estatistica de
Passos Modelo -2logL(θ) teste (TRV) Valor p
Passo 1 nulo 629,96 - -
idade (id) 594,08 35,880 0,000
sexo (sx) 626,02 3,940 0,047
cor (cr) 613,28 16,680 0,000
transplante (tr) 603,46 26,500 0,000
imc (im) 628,5 1,460 0,227
antihbs (na) 598,5 31,460 0,000
diabetes (di) 613,5 16,460 0,000
pressao (pr) 622,44 7,520 0,006
Passo 2 id+sx+cr+tr+na+di+pr 533,12 - 0,000
sx+cr+tr+na+di+pr 555,46 22,34 0,000
id+cr+tr+na+di+pr 539,92 6,8 0,009
id+sx+tr+na+di+pr 541,66 8,54 0,003
id+sx+cr+an+di+pr 535,78 2,66 0,103
id+sx+cr+tr+im+di+pr 550,88 17,76 0,000
id+sx+cr+tr+na+pr 533,3 0,18 0,671
id+sx+cr+tr+na+di 544,68 11,56 0,001
Passo 3 id+sx+cr+na+pr 535,92 - -
id+sx+cr+na+pr+tr 533,3 2,62 0,106
id+sx+cr+na+pr+di 535,78 0,14 0,708
Passo 4 id+sx+cr+na+pr 535,92 - -
id+sx+cr+na+pr+im 535,5 0,42 0,517
Passo 5 id+sx+cr+na+pr 535,92 - -
sx+cr+na+pr 571,84 35,92 0,000
id+cr+na+pr 544,36 8,44 0,004
id+sx+na+pr 546,4 10,48 0,001
id+sx+cr+pr 557,88 21,96 0,000
id+sx+cr+na 549,42 13,5 0,000
Para análise, utilizamos Software SAS para obter as estimativas, e o Software
R para a construção dos gráficos. Os resultados da Tabela 4.4 indicam que as
covariáveis Idade, Sexo, Cor, AntiHBS e Pressão são estatisticamente
significativas para o modelo.
A fim de verificar o ajuste destas covariáveis, foram plotados os seus ajustes
versos as curvas empíricas de Kaplan-Meier
Primeiramente analisamos qual distribuição se ajusta melhor com as curvas
de sobrevivência, não levando em conta as covariáveis. Os gráficos do tempo de
sobrevida com o ajuste paramétrico para as distribuições exponencial, weibull e
log-normal estão dispostos na Figura 4.3.
44
0 50 100 150 200 250 300
0.0
0.2
0.4
0.6
0.8
1.0
Tempos
S(t
)
Kaplan-Meier
exponencial
0 50 100 150 200 250 300
0.0
0.2
0.4
0.6
0.8
1.0
Tempos
S(t
)Kaplan-Meier
Weibull
0 50 100 150 200 250 300
0.0
0.2
0.4
0.6
0.8
1.0
Tempos
S(t
)
Kaplan-Meier
Log-normal
Figura 4.3: Curvas de sobrevivência com os ajustes da
Exponencial, weibull e log-normal
Para tentar obter um melhor ajuste paramétrico graficamente, também
utilizamos a linearização da função de sobrevivência da função exponencial,
weibull e log-normal respectivamente mostrados na Figura 4.4 e 4.5.
45
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
S(t): Kaplan-Meier
S(t
): E
xponencia
l
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
S(t): Kaplan-Meier
S(t
): W
eib
ull
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
S(t): Kaplan-Meier
S(t
): L
og-N
orm
al
Figura 4.4: Gráficos das sobrevivências estimadas por Kaplan-Meier versus
as sobrevivências estimadas pelos modelos exponencial, de Weibull e log-
normal, respectivamente.
0 50 100 200 300
0.0
0.5
1.0
1.5
2.0
2.5
Tempos
-Log(S
(t))
0 1 2 3 4 5
-5-4
-3-2
-10
1
log(tempos)
log(-
log(S
(t))
)
0 1 2 3 4 5
-10
12
log(tempos)
1S
t
Figura 4.5: Gráficos da linearização para os modelos exponencial, weibull e
log-normal respectivamente.
46
Após análise gráfica os três modelos foram comparados através do valor da
log verossimilhança. O valor das estatísticas estão na Tabela 4.5.
Tabela 4.5: Resultados dos testes da razão de verossimilhança.
Modelo Log-verossimilhança
Exponencial 274,29
Weibull 268,21
Log-Normal 278,26
O modelo que mais se adequa aos tempos em estudo é o que apresenta
menor valor em módulo do log da verossimilhança, sendo assim, consideramos
para este estudo o ajuste através do modelo Weibull.
4.2.1 - Verificação do ajuste
Para verificar o ajuste foi construído as curvas estimatimadas de Kaplan-
Meier versos o ajuste do modelo para cada um dos parâmetros. Assim os ajustes
foram:
0 50 100 150 200 250 300
0.0
0.2
0.4
0.6
0.8
1.0
t
S(t
)
Masculino
Feminino
Figura 4.6: Gráficos das sobrevivências estimadas por Kaplan-Meier
Versus o ajuste do modelo Weibull para o fator sexo.
47
Para o fator sexo, percebemos um bom ajuste a partir do modelo Weibull, isso
significa que o modelo está prevendo bem os dados comparando com as
estimativas de Kaplan-Meier. A análise indica que os homens com problemas
renais possuem uma estimativa maior do tempo de vida comparado ao sexo
feminino com problemas renais.
0 50 100 150 200 250 300
0.0
0.2
0.4
0.6
0.8
1.0
t
S(t
)
False
True
Figura 4.7: Gráficos das sobrevivências estimadas por Kaplan-Meier
Versus o ajuste do modelo Weibull para a variável pressão.
Para o fator Pressão o modelo ajustado Weibull também obteve uma boa
precisão mesmo que a calda não esteja bem ajustada. A interpretação para esse
gráfico é que os pacientes com problemas renais que possuem pressão alta
possuem uma estimativa do tempo de vida menor que os pacientes com
problemas renais que não têm problemas com pressão alta.
48
0 50 100 150 200 250 300
0.0
0.2
0.4
0.6
0.8
1.0
t
S(t
)
False
True
Figura 4.8: Gráficos das sobrevivências estimadas por Kaplan-Meier
Versus o ajuste do modelo Weibull para o fator AntiHBS.
O fator AntiHBS mostra-se bem ajustada ao modelo paramétrico Weibull,
onde pode-se interpretar que pacientes com problemas renais que tomaram
vacina de hepatite B possuem uma estimativa maior do tempo de vida do que os
pacientes com problemas renais não vacinados.
Por fim, a Figura 4.9 apresenta o ajuste para a covariável cor do paciente.
0 50 100 150 200 250 300
0.0
0.2
0.4
0.6
0.8
1.0
t
S(t
)
Amarela
BrancaNegraparda
Figura 4.9: Gráficos das sobrevivências estimadas por Kaplan-Meier
Versus o ajuste do modelo weibull para o fator cor.
49
4.2.2 - Estimativa dos Parâmetros do Modelo Ajustado Weibull
Considere o modelo Weibull ajustado dado por: S(t)= exp[ -[ t/μ(x)]γ ] onde
μ(x)= 77
^
66
^
55
^
44
^
33
^
22
^
11
^
0
^
exp( xxxxxxx )
e X1=idade, X2=sexo, X3=cor amarela, X4=cor branca, X5=cor negra, X6=AntiHBS e X7=Pressão. Assim as estimativas dos parâmetros são apresentadas na Tabela 4.6 que segue.
Tabela 4.6: Estimativas dos parâmetros
Parametros Estimativa Estatística Teste P-valor
Intercepto 74,537 187,7 <,0001
Idade -0,03115 35,54 <,0001
Sexo -0,394 8,2 0,0042
Cor1 -0,8138 2,11 0,1467
Cor2 -0,9706 5,69 0,0171
Cor3 -0,6358 2,01 0,1561
AntiHBS -0,7175 24,51 <,0001
Pressão 0,6696 15,86 <,0001
Scale 0,7876
Shape 12,697 onde sexo é o indicador do sexo feminino; cor1 cor2 e cor3 indicadores das raças amarela, branca e negra respectivamente; AntiHBS e Pressão indicador de falso da covariável.
Para a interpretação das variáveis dicotômicas e contínuas foi aplicado o
exponencial dos betas estimados na Tabela 4.5 e foram tomadas as seguintes
conclusões:
Idade: ao aumento de um ano de idade do inicio do tratamento, ou seja, a
cada ano que o paciente passa sem problemas renais o tempo de morte
devido a fatalidade cai em 3%.
Sexo: O tempo mediano de vida de pacientes homens com problemas renais
é 1,5 vezes maior que o tempo das mulheres que apresentam problemas
renais.
50
Cor: O tempo mediano de vida dos pacientes com problemas renais de cor
parda é 2,2, 2,6 e 1,9 vezes maior do que pacientes de cor amarela, branca e
negra respectivamente.
AntiHBS: Pacientes que tomaram a vacina contra hepatite B e apresentam
problemas renais tem o tempo mediano de vida 2 vezes maior que os
pacientes que não tomaram vacina contra hepatite B e tem problemas renais.
Pressão: Pacientes que fazem tratamento renal e não possuem problemas de
pressão alta tem aproximadamente o dobro do tempo mediano de vida.
4.2.3 - Análise de resíduos
0 50 100 150 200 250 300
-2-1
01
Index
res.m
art
Figura 4.10: Resíduos Martingale
51
0 50 100 150 200 250 300
-10
12
3
Index
res.d
evi
Figura 4.11: Resíduos Deviance
0 1 2 3
01
23
4
r.surv1$time
-lo
g(r
.su
rv1
$su
rv)
Figura 4.12: Resíduos Cox-Snell
52
Capítulo 5 – Conclusão
Evidenciou-se a importância dos estudos de sobrevivência nessa população
de pacientes renais crônicos para elucidar muitas questões ainda obscuras,
especialmente, pela escassez de estudos dessa natureza em nosso meio.
Recomenda-se um preenchimento mais cuidadoso dos prontuários por parte
de médicos e demais profissionais envolvidos no contato direto com os pacientes.
Com o modelo ajustado, é possível fazer previsões aos pacientes de
hemodiálise do hospital Instituto do Rim de Maringá, lembrando que um modelo
deve estar sempre sendo reajustado, com novas observações, uma vez que pelo
fato da população estar sempre em constante desenvolvimento, os modelos vão
perdendo seus ajustes.
Informações importantes puderam ser observadas, como as que o sexo
feminino, pressão alta, vacina contra hepatite B e pacientes de cor branca são
fatores em potencial para diminuir o tempo de vida de pacientes com problemas
renais, sendo os fatores pressão e AntiHBS os mais significativos, pois diminuem o
dobro do tempo de vida dos pacientes.
Um cuidado especial deve ser tomado com crianças que apresentam
problemas renais, pois a cada idade ganha sem problemas o tempo devido a
fatalidade cai em 3%.
Analise de resíduos não é feita em dados de sobrevivência, pelo fato da
ausência de normalidade dos resíduos. Existem já estudos para tal problema, onde
devem ser concluídos para tal analise.
53
54
Bibliografias
Bendel, R. e Afifi A. Comparison of Stopping Rules in Forward ‘Stepwise’
Regression. En: Journal of the American Statistical Association, 72 (357): 46-53,
1977.
BOLFARINE, H.; RODRIGUES, J.; ACHCAR, J. A. Análise de Sobrevivência. 2ª
Escola Nacional de Modelos de Regressão, Rio de Janeiro, 1991.
CAIN, S. R. Distinguishing Between Lognormal and Weibull distributions.
International Journal of Reability, Quality and Safety Engineering, vol. 51, nº 01,
2002.
CASTANHEIRA J. ; PEREIRA T.; CONDE J. Impacto da hemodiálise versus diálise
peritoneal na anatomia cardíaca em doentes com insuficiência renal crônica. In:
CONGRESO VIRTUAL DE CARDIOLOGÍA, 4., 2005.
COLLET, D. Modelling survival data in medical research. New York: Chapman and
Hall, 1994.
COLOSIMO, E. A. Análise de Sobrevivência Aplicada. In: 46ª Reunião Anual da
Região Brasileira da Sociedade Internacional de Biometria (RBRAS) e 9º Simpósio
de Estatística Aplicada e Experimentação Agronômica (SEAGRO). Piracicaba, 1995.
COLOSIMO, E. A.; GIOLO, S. R. Análise de sobrevivência aplicada. São Paulo:
Edgard Blücher, 2006. 369p.
COLTON, T., 1979. Statistica in Medicine. Padova: Piccin Editore.
Costanza M. C. and Afifi A, Comparison of stopping rules in forward stepwise
discriminant analysis, Journal of the American Statistical Analysis, 74, 777-785,
1979.
CARDOZO, M.T.; VIEIRA, I.O.; CAMPANELLA, L.C.A. Alterações nutricionais em
pacientes renais crônicos em programa de hemodiálise. Revista Brasileira de
Nutição Clínica, v. 21(4), p. 284-289, 2006.
CAVAlLCANTE, U.M.T.; Maia, L.C.; Melo, A.M.M. & Santos, V.F. Influência da
densidade de fungos micorrízicos arbusculares na produção de mudas de
maracujazeiro-amarelo. Pesquisa Agropecuária Brasileira 37: 643-649. 2002.
COX, D. R.; OAXES, D. Analysis of Survival Data. 1ª Ed. London: Chapman & Hall,
1984.
55
COX, D. R.; SNELL, E. J. A general definition of residuals. Journal of the Royal
Statistical Society B, London, v. 30, n. 2, p. 248-254, Mar. 1968.
CROW, E. L., SHIMIZU, K. Lognormal Distributions. New York: Marcel Dekker, 1988.
FLETCHER, R. H.; FLETCHER, S. W. & WAGNER, E. H.. Epidemiologia Clínica:
Elementos Essenciais, 3a Ed. Porto Alegre: Artes Médicas, 1996.
KAHN, H. A. & SEMPOS, C. T., Statistical Methods in Epidemiology. New
York/Oxford: Oxford University Press, 1989.
KAPLAN, E. L. & MEIER, P., 1958. Non parametric estimation from incomplete
observation. Journal of the American Statistics Association, 53:457-481, 1989.
KLEIBAUM, D. G. Survival Analysis: a self-learning text. New York: Springer-Verlag,
1996.
Klein and Moeschberger, Survival Analysis Techniques for Censored and truncated
data, Springer, 1997.
KLEINBAUM, D. G., Survival Analysis: A Self-Learning Text. New York: Springer,
1995.
LAWLESS, J. F. Statistical Models and Methods for Lifetime Data. New York: Wiley,
1982.
LEE, E. T. Statistical methods for Survival data Analysis. 2ª Ed. New York: john Wiley
& Sons, 1992.
MARQUES, A. B.; PEREIRA, D. C.; RIBEIRO, R. C. H. M. Motivos e freqüência de
internação dos pacientes com IRC em tratamento hemodialítico. Arq. Ciênc. Saúde.,
São José do Rio Preto, v.12, n.2, p.67-72, 2005.
MICKEY, J., ANDS . GREENLAND. A study of the impacto f confounder-selection
criteria on effect estimation. American Journal of Epidemiology 129:125-137, 1989.
NELSON, W. Accelerated Life Testing: Statistical Models, data Analysis and Test
Plans. New York: John Wiley & Sons, 1990.
PARKIN, D. M. & HAKULINEN, T., Analysis of survival. In: Cancer Registration
Principles and Methods (O. M. Jensen, D. M. Parkin, R. Maclennan, C. S. Muir & R.
G. Skeet, ed.), IARC Scientific Publications 95, pp. 159-176, Lyon: International
Agency for Research on Cancer, 1991.
SANTOS, P. R. Associação de qualidade de vida com hospitalização e óbito em
pacientes portadores de doença renal crônica em hemodiálise. J. Bras. Nefrol., São
Paulo, v.27, n.4, 2005.
56
SBN - Sociedade Brasileira de Nefrologia. Disponível em: <http://www.sbn.org.br/>
.Acesso em: 18 maio 2009.
SELVIN, S., Statistical Analysis of Epidemiologic Data. 2nd Ed. New York/Oxford:
Oxford University Press, 1996.
SOUZA, E. X. de. Análise de Confiabilidade: Um estudo sobre o Tempo de Vida de
Pneus. Natal. 62 p. Monografia (Graduação em Estatística). Departamento de
Estatística, Universidade Federal do Rio Grande do Norte, 2001.
SZKLO, M. & NIETO, F. J., Epidemiology: Beyond the Basics. Annapolis: Aspen
Publishers, 2000
Therneau, T.M. y Grambsch, P.M. Modeling Survival Data: Extending the Cox Model.
N.Y.: Springer-Verlag, 2000.
WEIBULL, W. A statistical representation of fatigue failure in solids. Royal Institute
Technology, Stockholm, 1954.
YOUNG, J. L., 1991. The hospital-based cancer registry. In: Cancer Resgistration:
Principles and Methods (O. M. Jensen, D. M. Parkin, R. Maclennan, C. S. Muir, R. G.
Skeet, ed.), IARC Scientific Publication 95, pp. 177-184, Lyon: International Agency
for Research on Cancer.
57
Anexo A Programa no SAS.
PROC IMPORT OUT= WORK.TCCc DATAFILE= "C:\Documents and Settings\13\Desktop\Estagio\Thia go Estatistica\analise de sobrevivencia2.xls" DBMS=EXCEL REPLACE; SHEET="dados$"; GETNAMES=YES; MIXED=NO; SCANTEXT=YES; USEDATE=YES; SCANTIME=YES; RUN; data rim; set tccc; run; /* variaveis Idade SEXO COR Tempo SANGUE FATORRH TRANSPLANTE IMC ANTIHBS DIABETES censura pres */ /* Testes de Log-Ranck e Wilcoxon para todas as covariaveis */ proc lifetest data = rim;/* idade */ time tempo*censura(0); strata idade ; run; proc lifetest data = rim;/* sexo */ time tempo*censura(0); strata sexo cor; run; proc lifetest data = rim;/* cor */ time tempo*censura(0); strata cor; run; proc lifetest data = rim;/* sangue */ time tempo*censura(0); strata sangue; run; proc lifetest data = rim;/* fatorrh */ time tempo*censura(0); strata fatorrh; run; proc lifetest data = rim;/* transplante */ time tempo*censura(0); strata transplante; run; proc lifetest data = rim;/* imc */ time tempo*censura(0);
58
strata imc; run; proc lifetest data = rim;/* antihbs */ time tempo*censura(0); strata antihbs; run; proc lifetest data = rim;/* diabetes */ time tempo*censura(0); strata diabetes; run; proc lifetest data = rim;/* pressao */ time tempo*censura(0); strata pres; run; /* tipo sanguinio e fator RH nao entraram nos modelos */ /* idade sexo cor transplante imc antihbs diabetes pres */ /* Ajuste de modelos gamma*/ proc lifereg data = rim;/*nulo primeira etapa*/ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = / dist=gamma; run; proc lifereg data = rim;/*idade */ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = idade / dist=gamma; run; proc lifereg data = rim;/*sexo */ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = sexo / dist=gamma; run; proc lifereg data = rim;/*cor */ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = cor / dist=gamma; run; proc lifereg data = rim;/*transplante*/ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = transplante/ dist=gamma; run; proc lifereg data = rim;/* imc*/ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = imc/ dist=gamma; run; proc lifereg data = rim;/*antihbs */ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = antihbs/ dist=gamma; run;
59
proc lifereg data = rim;/*diabetes */ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = diabetes / dist=gamma; run; proc lifereg data = rim;/*pres */ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = pres / dist=gamma; run; proc lifereg data = rim;/*completo segunda etapa sem a var IMC*/ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = idade sexo cor transplante antihbs diabetes pres / dist=gamma; run; proc lifereg data = rim;/*idade */ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = sexo cor transplante antihbs diabetes pres / dist=gamma; run; proc lifereg data = rim;/*sexo */ class cor transplante antihbs diabetes pres; model tempo*censura(0) = idade cor transplante antihbs diabetes pres / dist=gamma; run; proc lifereg data = rim;/*cor */ class sexo transplante antihbs diabetes pres; model tempo*censura(0) = idade sexo transplante antihbs diabetes pres / dist=gamma; run; proc lifereg data = rim;/*transplante */ class sexo cor antihbs diabetes pres; model tempo*censura(0) = idade sexo cor antihbs diabetes pres / dist=gamma; run; proc lifereg data = rim;/*antihbs*/ class sexo cor transplante diabetes pres; model tempo*censura(0) = idade sexo cor transplante diabetes pres / dist=gamma; run; proc lifereg data = rim;/*diabets */ class sexo cor transplante antihbs pres; model tempo*censura(0) = idade sexo cor transplante antihbs pres / dist=gamma; run; proc lifereg data = rim;/*pres */ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = idade sexo cor transplante antihbs diabetes / dist=gamma;
60
run; proc lifereg data = rim;/*completo terceira etapa sem transplante e diabetes add uma por vez*/ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = idade sexo cor antihbs pres / dist=gamma; run; proc lifereg data = rim;/*transplante*/ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = idade sexo cor transplante antihbs pres / dist=gamma; run; proc lifereg data = rim;/*diabetes */ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = idade sexo cor antihbs diabetes pres / dist=gamma; run; proc lifereg data = rim;/*completo quarta etapa colocar as q sairao na fase 1 IMC*/ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = idade sexo cor antihbs pres / dist=gamma; run; proc lifereg data = rim;/* IMC*/ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = idade sexo cor antihbs pres imc / dist=gamma; run; proc lifereg data = rim;/*completo quinta etapa tirar um a um*/ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = idade sexo cor antihbs pres / dist=gamma; run; proc lifereg data = rim;/*idade*/ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = sexo cor antihbs pres / dist=gamma; run; proc lifereg data = rim;/* sexo*/ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = idade cor antihbs pres / dist=gamma; run; proc lifereg data = rim;/*cor*/ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = idade sexo antihbs pres / dist=gamma; run; proc lifereg data = rim;/*antihbs*/ class sexo cor transplante diabetes pres; model tempo*censura(0) = idade sexo cor pres / dist=gamma; run; proc lifereg data = rim;/*pres*/
61
class sexo cor transplante antihbs pres; model tempo*censura(0) = idade sexo cor antihbs / dist=gamma; run; /* Ajuste a um modelo parametrico */ proc lifereg data = rim; /*Gamma */ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = idade sexo cor antihbs pres idade*antihbs idade*pres idade*cor cor*pres sexo*cor cor*antihbs / dist=gamma; run; proc lifereg data = rim; /*exponencial */ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = idade sexo cor antihbs pres idade*antihbs idade*pres idade*cor cor*pres sexo*cor cor*antihbs/ dist=exponential; run; proc lifereg data = rim; /*weibull */ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = idade sexo cor antihbs pres idade*antihbs idade*pres idade*cor cor*pres sexo*cor cor*antihbs; run; proc lifereg data = rim; /*log-normal */ class sexo cor transplante antihbs diabetes pres; model tempo*censura(0) = idade sexo cor antihbs pres idade*antihbs idade*pres idade*cor cor*pres sexo*cor cor*antihbs/covb dist=lognormal; output out=wa cdf=f; run;
Anexo B Programa no R dialise<-read.table("C:/Documents and Settings/13/Desktop/Estagio/Thiago Estatistica/ddd.csv",sep=";",h=T) dialise attach(dialise) require(survival) ekm<-survfit(Surv(Tempo,censura)~FATORRH) summary(ekm) survdiff(Surv(Tempo,censura)~FATORRH,rho=0) plot(ekm,lty=c(1,4),mark.time=F,xlab="Tempo (meses)",ylab="S(t)") text(150.5,0.93,c("FatorRH como causa da insuficiência renal"),bty="n",cex=1.2) legend(230.5,0.85,lty=c(4),c("Negativo"),bty="n",cex=1.0) legend(230.5,0.8,lty=c(1),c("Positivo"),bty="n",cex=1.0) ekm<-survfit(Surv(Tempo,censura)~TRANSPLANTE) summary(ekm) survdiff(Surv(Tempo,censura)~TRANSPLANTE,rho=0) plot(ekm,lty=c(1,4),mark.time=F,xlab="Tempo (meses)",ylab="S(t)") text(150.5,0.93,c("TRANSPLANTE como causa da insuficiência renal"),bty="n",cex=1.2)
62
legend(260.5,0.9,lty=c(4),c("Não"),bty="n",cex=1.0) legend(260.5,0.8,lty=c(1),c("Sim"),bty="n",cex=1.0) ekm<-survfit(Surv(Tempo,censura)~IMC) # categorizar summary(ekm) survdiff(Surv(Tempo,censura)~IMC,rho=0) plot(ekm,lty=c(1,4),mark.time=F,xlab="Tempo (meses)",ylab="S(t)") text(150.5,0.93,c("IMC como causa da insuficiência renal"),bty="n",cex=1.2) legend(260.5,0.9,lty=c(4),c("Não"),bty="n",cex=1.0) legend(260.5,0.8,lty=c(1),c("Sim"),bty="n",cex=1.0) ekm<-survfit(Surv(Tempo,censura)~ANTIHBS) summary(ekm) survdiff(Surv(Tempo,censura)~ANTIHBS,rho=0) plot(ekm,lty=c(1,4),mark.time=F,xlab="Tempo (meses)",ylab="S(t)") text(150.5,0.93,c("ANTIHBS Ccomo causa da insuficiência renal"),bty="n",cex=1.2) legend(260.5,0.9,lty=c(4),c("Sim"),bty="n",cex=1.0) legend(260.5,0.8,lty=c(1),c("Não"),bty="n",cex=1.0) ekm<-survfit(Surv(Tempo,censura)~DIABETES) summary(ekm) survdiff(Surv(Tempo,censura)~DIABETES,rho=0) plot(ekm,lty=c(1,4),mark.time=F,xlab="Tempo (meses)",ylab="S(t)") text(150.5,0.93,c("DIABETES como causa da insuficiência renal"),bty="n",cex=1.2) legend(260.5,0.85,lty=c(4),c("Sim"),bty="n",cex=1.0) legend(260.5,0.8,lty=c(1),c("Não"),bty="n",cex=1.0) ekm<-survfit(Surv(Tempo,censura)~pres) summary(ekm) survdiff(Surv(Tempo,censura)~pres,rho=0) plot(ekm,lty=c(1,4),mark.time=F,xlab="Tempo (meses)",ylab="S(t)") text(150.5,0.93,c("Pressão como causa da insuficiência renal"),bty="n",cex=1.2) legend(260.5,0.85,lty=c(4),c("Sim"),bty="n",cex=1.0) legend(260.5,0.8,lty=c(1),c("Não"),bty="n",cex=1.0) #Distribuiçoes TEMPO = sort(tempo) hist(tempo,prob=T,nclass=20) lines(sort(tempo),dweibull(tempo,scale=111.0023,shape=0.9977)) lines(sort(tempo),dexp(tempo,0.0089)) lines(sort(tempo),dlnorm(tempo,4.2424,1.3609)) attach(dialise) require(survival) ajust1<-survreg(Surv(Tempo,censura)~1,dist='exponential') ajust1 alpha<-exp(ajust1$coefficients[1]) alpha ajuajust2<-survreg(Surv(Tempo,censura)~1,dist='weibull') ajust2 alpha<-exp(ajust2$coefficients[1]) gama<-1/ajust2$scale cbind(gama, alpha) ajust3<-survreg(Surv(Tempo,censura)~1,dist='lognorm')
63
ajust3 ekm<-survfit(Surv(Tempo,censura)~1) time<-ekm$time st<-ekm$surv ste<-exp(-time/111.3628) stw<-exp(-(time/111.3628)^0.9976646) stln<- pnorm((-log(time)+4.242415)/1.360902) cbind(time,st,ste,stw,stln) par(mfrow=c(1,3)) plot(st,ste,pch=16, ylim=range(c(0.0,1)), xlim=range(c(0,1)), xlab="S(t): Kaplan-Meier", ylab="S(t): Exponencial") lines(c(0,1), c(0,1), lty=1) plot(st,stw,pch=16, ylim=range(c(0,0,1)), xlim=range(c(0,1)), xlab="S(t): Kaplan-Meier", ylab="S(t): Weibull") lines(c(0,1), c(0,1), lty=1) plot(st,stln,pch=16, ylim=range(c(0,0,1)), xlim=range(c(0,1)), xlab="S(t): Kaplan-Meier", ylab="S(t): Log-Normal") lines(c(0,1), c(0,1), lty=1) par(mfrow=c(1,3)) invst<-qnorm(st) plot(time, -log(st), pch=16, xlab="Tempos", ylab="-Log(S(t))") plot(log(time), log(-log(st)),pch=16,xlab="log(tempos)", ylab="log(-log(S(t)))") plot(log(time),invst,pch=16,xlab="log(tempos)",ylab=expression(Phi^-1*(S(t)))) par(mfrow=c(1,3)) plot(ekm, conf.int=F, xlab="Tempos", ylab="S(t)") lines(c(0,time),c(1,ste),lty=2) legend(18,0.5,lty=c(1,2),c("Kaplan-Meier", "exponencial"), bty="n", cex=0.8) plot(ekm, conf.int=F, xlab="Tempos", ylab="S(t)") lines(c(0,time),c(1,stw),lty=2) legend(18,0.5,lty=c(1,2),c("Kaplan-Meier", "Weibull"), bty="n", cex=0.8) plot(ekm, conf.int=F, xlab="Tempos", ylab="S(t)") lines(c(0,time),c(1,stln), lty=2) legend(18,0.5, lty=c(1,2),c("Kaplan-Meier", "Log-normal"), bty="n", cex=0.8) ajust1$loglik[2] ajust2$loglik[2] ajust3$loglik[2] dialise fit<-coxph(Surv(Tempo,censura)~Idade+SEXO+COR+ANTIHBS+pres,data=dialise, x=T,method="breslow") summary(fit) fit$loglik dialisee<-read.table("C:/Documents and Settings/13/Desktop/Estagio/Thiago Estatistica/dddcat.csv",sep=";",h=T) dialisee attach(dialisee) require(survival) #Sexo
64
ekm = survfit(Surv(tempo,censura)~sexo,type="kaplan-meier") masculino=0 feminino=1 sort(tempo) mu = 0.9897 gama= 1.0104 beta0= 4.892 beta1= -0.4462 S1 = exp(-(tempo/(exp(beta0+beta1*masculino)))^gama) S2 = exp(-(tempo/(exp(beta0+beta1*feminino)))^gama) plot(ekm,lty=c(1,4),xlab="t",ylab="S(t)") lines(tempo,S1,type="l",lty=2,col="blue") lines(tempo,S2,type="l",lty=2,col="red") legend(250,0.8, lty=c(1,2),c("Masculino", "Feminino"), bty="n", cex=0.8) text(150.5,0.93,c("Ajuste da variavel Sexo"),bty="n",cex=1.2) AntiHBS ekm = survfit(Surv(tempo,censura)~anthbs,type="kaplan-meier") false=1 true=0 sort(tempo) mu = 0.8951 gama= 1.1172 beta0= 5.1288 beta1= -0.9557 S1 = exp(-(tempo/(exp(beta0+beta1*false)))^gama) S2 = exp(-(tempo/(exp(beta0+beta1*true)))^gama) plot(ekm,lty=c(1,4),xlab="t",ylab="S(t)") lines(tempo,S1,type="l",lty=2,col="blue") lines(tempo,S2,type="l",lty=2,col="red") legend(250,0.8, lty=c(1,2),c("False", "True"), bty="n", cex=0.8) text(150.5,0.93,c("Ajuste da variavel AntiHBS"),bty="n",cex=1.2) Pressão ekm = survfit(Surv(tempo,censura)~pres,type="kaplan-meier") false=1 true=0 sort(tempo) mu = 0.9781 gama= 1.0224 beta0= 4.2038 beta1= 0.6054 S1 = exp(-(tempo/(exp(beta0+beta1*false)))^gama) S2 = exp(-(tempo/(exp(beta0+beta1*true)))^gama) plot(ekm,lty=c(1,4),xlab="t",ylab="S(t)") lines(tempo,S1,type="l",lty=2,col="blue") lines(tempo,S2,type="l",lty=2,col="red") legend(250,0.8, lty=c(1,2),c("False", "True"), bty="n", cex=0.8) text(150.5,0.93,c("Ajuste da variavel Pressão"),bty="n",cex=1.2)
65
Cor ekm = survfit(Surv(tempo,censura)~cor,type="kaplan-meier") amarela=1 branca=1 negra=1 sort(tempo) mu = 0.9951 gama= 1.0050 beta0= 5.9623 beta1= -1.1069 beta2= -1.3950 beta3= -1.0080 S1 = exp(-(tempo/(exp(beta0+beta1*amarela)))^gama) S2 = exp(-(tempo/(exp(beta0+beta2*branca)))^gama) S3 = exp(-(tempo/(exp(beta0+beta3*negra)))^gama) S4 = exp(-(tempo/(exp(beta0)))^gama) plot(ekm,lty=c(1,2,3,4),xlab="t",ylab="S(t)") lines(tempo,S1,type="l",lty=2,col="blue") lines(tempo,S2,type="l",lty=2,col="red") lines(tempo,S3,type="l",lty=2,col="black") lines(tempo,S4,type="l",lty=2,col="green") legend(250,0.8, lty=c(1,2,3,4),c("Amarela", "Branca","Negra","parda"), bty="n", cex=0.8) text(150.5,0.93,c("Ajuste da variavel Cor"),bty="n",cex=1.2) #Analise de residuos # ajuste geral dialisee<-read.table("C:/Documents and Settings/13/Desktop/Estagio/Thiago Estatistica/dddcat.csv",sep=";",h=T) dialisee attach(dialisee) require(survival) ajust1<-survreg(Surv(tempo,censura)~idade+sexo+cor+pres+anthbs, dist='weibull') ajust1 summary(ajust1) mod1<- coxph(Surv(tempo,censura)~idade+sexo+cor+pres+anthbs) residuo.sch<-cox.zph(mod1) par(mfrow=c(2,4)) plot(residuo.sch) abline(h=0,lty=2) res.mart <- resid(mod1,type="martingale") res.nulo<- plot(res.mart) res.esco<- resid(mod1,type="dfbetas") plot(res.esco) res.devi<-resid(mod1,type="deviance")
66
plot(res.devi) # exponencial sobrevivencia e risco dev.off() pdf(file="C:\Documents and Settings\13\Desktop\Estagio\tcc\exp-survival.pdf") t<- seq(0,3,0.1) Survival <- function(t,mu) { exp(-(t/mu)) } mu <- 0.5 S <- Survival(t,mu) plot(t,S,type="l",ylim=c(0,1),xlim=c(0,3),lty=1,font=7, font.axis=3,font.lab=3,lwd=2,ylab="S(t)") mu <- 1 S <- Survival(t,mu) lines(t,S,lty=3,lwd=2) mu <- 1.5 S <- Survival(t,mu) lines(t,S,lty=4,lwd=2) mu <- 3.0 S <- Survival(t,mu) lines(t,S,lty=5,lwd=2) legend(2,0.95,col=c("black","black","black","black"), bty="n",lty=c(1,3,4,5),lwd=2,c(expression(mu=="0,5"), expression(mu=="1,0"),expression(mu=="1,5"), expression(mu=="3,0"))) dev.off() dev.off() pdf(file="C:\\graficos\\exp-risco.pdf") plot(0:3,0:3,type="n",xlab="t", ylab = "h(t)") lines(0:3,rep(0.5,4),type="l",lty=1,lwd=2) lines(0:3,rep(1,4),lty=3,lwd=2) lines(0:3,rep(1.5,4),lty=4,lwd=2) lines(0:3,rep(3,4),lty=5,lwd=2) legend(2,2.8,col=c("black","black","black","black"), bty="n",lty=c(1,3,4,5),lwd=2,c(expression(mu=="0,5"), expression(mu=="1,0"),expression(mu=="1,5"), expression(mu=="3,0"))) dev.off() # weibull sobrevivencia e risco dev.off() pdf(file="C:\Documents and Settings\13\Desktop\Estagio\tcc\exp-survival.pdf\weibull-risco.pdf") t<- seq(0.01,3,0.01) Survival <- function(t,mu,beta) {
67
(beta/mu)*(t/mu)**(beta-1) } mu <- 1.5 beta <- 0.5 S <- Survival(t,mu,beta) plot(t,S,type="l",ylim=c(0,3),xlim=c(0,3),lty=1,font=7,font.axis=3,font.lab=3,lwd=2,ylab="h(t)", xlab="t") beta <- 1 S <- Survival(t,mu,beta) lines(t,S,lty=3,lwd=2) beta <- 1.5 S <- Survival(t,mu,beta) lines(t,S,lty=4,lwd=2) beta <- 3.0 S <- Survival(t,mu,beta) lines(t,S,lty=5,lwd=2) legend(1.8,2.6,col=c("black","black","black","black"),bty="n",lty=c(1,3,4,5),lwd=2,c(expression(lambda=="0,5"), expression(lambda=="1,0"),expression(lambda=="1,5"),expression(lambda=="3,0"))) legend(2.5,2.4,col="black",bty="n",expression(mu=="1,5")) dev.off() dev.off() pdf(file="C:\Documents and Settings\13\Desktop\Estagio\tcc\exp-survival.pdf\weibull-survival.pdf") t<- seq(0.01,3,0.01) Survival <- function(t,mu,beta) { exp(-(t/mu)**beta) } mu <- 1.5 beta <- 0.5 S <- Survival(t,mu,beta) plot(t,S,type="l",ylim=c(0,1),xlim=c(0,2.5),lty=1,font=7,font.axis=3,font.lab=3,lwd=2,ylab="S(t)", xlab="t") beta <- 1 S <- Survival(t,mu,beta) lines(t,S,lty=3,lwd=2) beta <- 1.5 S <- Survival(t,mu,beta) lines(t,S,lty=4,lwd=2) beta <- 3.0 S <- Survival(t,mu,beta) lines(t,S,lty=5,lwd=2) legend(1.3,0.83,col=c("black","black","black","black"),bty="n",lty=c(1,3,4,5),lwd=2,c(expression(lambda=="0,5"), expression(lambda=="1,0"),expression(lambda=="1,5"),expression(lambda=="3,0"))) legend(2,0.78,col="black",bty="n",expression(mu=="1,5")) dev.off() # log normal sobrevivencia e risco
68
dev.off() pdf(file="C:\Documents and Settings\13\Desktop\Estagio\tcc\graficos\\lnorm-risco.pdf") t<- seq(0.01,3,0.01) Survival <- function(t,mu,beta) { dlnorm(t,mu,beta)/(1-pnorm((log(t)-mu)/beta)) } mu <- 1.5 sigma <- 0.5 S <- Survival(t,mu,sigma) plot(t,S,type="l",ylim=c(0,1),xlim=c(0,2.5),lty=1,font=7,font.axis=3,font.lab=3,lwd=2,ylab="h(t)", xlab="t") sigma <- 1 S <- Survival(t,mu,sigma) lines(t,S,lty=3,lwd=2) sigma <- 1.5 S <- Survival(t,mu,sigma) lines(t,S,lty=4,lwd=2) sigma <- 3.0 S <- Survival(t,mu,sigma) lines(t,S,lty=5,lwd=2) legend(1,1,col=c("black","black","black","black"),bty="n",lty=c(1,3,4,5),lwd=2,c(expression(sigma=="0,5"), xpression(sigma=="1,0"),expression(sigma=="1,5"),expression(sigma=="3,0"))) legend(1.7,0.95,col="black",bty="n",expression(mu=="1,5")) dev.off() dev.off() pdf(file="C:\Documents and Settings\13\Desktop\Estagio\tcc\graficos\\lnorm-survival.pdf") t<- seq(0.01,10,0.01) Survival <- function(t,mu,beta) { (1-pnorm((log(t)-mu)/beta)) } mu <- 1.5 sigma <- 0.5 S <- Survival(t,mu,sigma) plot(t,S,type="l",ylim=c(0,1),xlim=c(0,10),lty=1,font=7,font.axis=3,font.lab=3,lwd=2,ylab="S(t)", xlab="t") sigma <- 1 S <- Survival(t,mu,sigma) lines(t,S,lty=3,lwd=2) sigma <- 1.5 S <- Survival(t,mu,sigma) lines(t,S,lty=4,lwd=2) sigma <- 3.0 S <- Survival(t,mu,sigma)
69
lines(t,S,lty=5,lwd=2) legend(6,1,col=c("black","black","black","black"),bty="n",lty=c(1,3,4,5),lwd=2,c(expression(sigma=="0,5"), expression(sigma=="1,0"),expression(sigma=="1,5"),expression(sigma=="3,0"))) legend(8,0.93,col="black",bty="n",expression(mu=="1,5")) dev.off()