VALIDAÇÃO, INTEGRIDADE E MONITORAMENTO DAS
DOENÇAS
NIGEL PANETH
MEDIDAS DE INTEGRIDADE
TERMINOLOGIA
INTEGRIDADE é análoga à precisão.
VALIDAÇÃO é análoga à segurança da exatidão.
INTEGRIDADE é como um observador classifica melhor o mesmo indivíduo sob diferentes circunstâncias.
VALIDAÇÃO é como uma prova reproduz melhor um resultado comparado à outra prova de maior segurança conhecida.
INTEGRIDADE E VALIDAÇÃO
INTEGRIDADE inclui:
• avaliações feitas pelo mesmo observador em diferentes períodos de tempo – INTEGRIDADE INTRAOBSERVADOR.
• avaliações feitas por observadores diferentes ao mesmo tempo – INTEGRIDADE INTEROBSERVADOR.
INTEGRIDADE presume que todas as provas e observadores sejam iguais.
VALIDAÇÃO presume que haja um padrão de ouro com o qual a prova e o observador serão comparados.
AVALIANDO INTEGRIDADE
Como avaliamos a integridade?
Uma maneira é observar simplesmente a percentagem de concordância.
- Percentagem de concordância é a proporção de todos os diagnósticos classificados da mesma maneira por dois observadores.
EXEMPLO
São dadas a dois médicos 100 radiografias para analisar independentemente, e lhes é perguntado se há a presença de pneumonia ou não. Quando ambos os seus diagnósticos são comparados, encontramos que 95% dos diagnósticos são os mesmos.
Há integridade nos diagnósticos?
A percentagem de concordância é suficiente para indicar integridade?
95% de concordância entre os dois médicos e a ausência ou presença da doença em uma amostra de 100 pacientes sempre indica boa concordância?
Você se sentiria tranqüilo se seu hospital fizesse um constante trabalho de leitura de Raios X do tórax, e se elas apresentassem 95% de integridade?
COMPARE AS DUAS TABELAS ABAIXO:
TABELA 1 TABELA 2
Em ambos os exemplos, os médicos concordaram em 95% de vezes. Os dois médicos são igualmente íntegros nas duas tabelas?
MD ≠1
SIM NÃO
MD≠2
SIM 1 3
NÃO 2 94
MD ≠1
SIM NÃO
MD≠2
SIM 43 3
NÃO 2 52
•QUAL A DIFERENÇA ESSENCIAL ENTRE AS DUAS TABELAS?
•O problema surge da facilidade de concordância em eventos comuns (Ex: não existindo pneumonia na primeira tabela).
•Uma medida de concordância deverá levar em consideração a “facilidade” de concordância devida somente ao acaso.
USO DE KAPPA PARA AVALIAR INTEGRIDADE
KAPPA é um teste de concordância INTER e INTRA-observadores (ou integridade) amplamente utilizado, que corrige por concordância o acaso.
KAPPA VARIA DE +1 à -1
+1 significa que os dois observadores concordaram perfeitamente. Eles classificaram a todos exatamente da mesma forma.
0 significa que não existe nenhuma relação entre as classificações dos dois observadores, acima da concordância de acasos que seriam esperadas.
-1 significa que os dois observadores classificaram exatamente o oposto. Se um observador diz SIM, o outro sempre diz NÃO.
GUIA PARA USO DE KAPPA EM EPIDEMIOLOGIA E EM MEDICINA:
KAPPA > 0,80 é considerado excelente.
KAPPA 0,60 – 0,80 é considerado bom.
KAPPA 0,40 – 0,60 é considerado regular.
KAPPA < 0,40 é considerado ruim
PRIMEIRA MANEIRA DE CALCULAR KAPPA:
1. Calcule a concordância observada (células nas quais os observadores concordaram/totais de células). Em ambas as TABELAS 1 e 2 são de 95%.
2. Calcule a concordância esperada (acaso de concordância) baseada nas marginais totais.
OS TOTAIS MARGINAIS DA TABELA 1 SÃO:
OBSERVADOS MD≠1
SIM NÃO
MD≠2
SIM 1 3 4
NÃO 2 94 96
3 97 100
Como calculamos o N esperado por acasos (azar) em cada célula?
Supondo que cada célula reflete as distribuições marginais, ex: as proporções das respostas SIM e NÃO deverão ser as mesmas dentro de uma tabela de quatro células como os totais marginais.
OBSERVADOS MD≠1
SIM NÃO
MD≠2
SIM 1 3 4
NÃO 2 94 96
3 97 100
ESPERADOS MD≠1
SIM NÃO
MD≠2
SIM 4
NÃO 96
3 97 100
Para chegar a isso, encontramos a proporção das respostas em cada coluna (3% e 97%, SIM e NÃO respectivamente, para MD≠1) ou na coluna (4% e 96%, SIM e NÃO respectivamente, para MD≠2) dos totais marginais, e aplicamos uma das duas proporções no outro total marginal. Ex: 96% dos totais das colunas na categoria “NÃO”. Portanto, 96% de NÃO por acasos de MD≠1, deveriam também, estar na coluna de NÃO. 96% de 97 são 93,12.
ESPERADOS MD≠1
SIM NÃO
MD≠2SIM 4
NÃO 93,12 96
3 97 100
Por subtração, todas as outras células serão preenchidas automaticamente, e cada distribuição de células SIM/NÃO refletirá a distribuição marginal. Qualquer célula poderá ser usada para fazer o cálculo, uma vez que, se cada célula é especificada numa tabela 2X2 com distribuições marginais fixadas, todas as outras células também, serão especificadas.
ESPERADOSMD≠1
SIM NÃO
MD≠2SIM 0,12 3,88 4
NÃO 2,88 93,12 96
3 97 100
Agora você pode ver que somente por operação de acaso, 93,24 das 100 observações deveriam ser concordantes para os dois observadores (93,12 + 0,12)
ESPERADOSMD≠1
SIM NÃO
MD≠2
SIM 0,12 3,88 4
NÃO 2,88 93,12 96
3 97 100
Agora comparemos a concordância atual com a concordância esperada: A concordância esperada é 6,76% distante da concordância completa de 100%, (100% - 93,24% = 6,76%).
A concordância atual foi de 5,0% da concordância completa de 100%, (100% – 95%).
Assim, nossos dois observadores foram 1,76% melhores que o acaso (azar), mas se eles tivessem concordado completamente, deveriam ter sido 6,76% melhores que o acaso (azar). Logo, eles são melhores em somente cerca de 0,26% que o acaso (azar) ou seja, 1,76/6,76 ≅¼.
ABAIXO ESTÁ A FÓRMULA PARA O CÁLCULO DE KAPPA DA CONCORDÂNCIA (C) ESPERADA:
C. observada – C. esperada 1 – Concordância esperada
95% - 93,24% = 1,76 = 0,26% 1 – 93,24% 6,76
UM KAPPA DE 0,26% É BOM?
KAPPA > 0,80 é considerado excelente.
KAPPA 0,60 – 0,80 é considerado bom.
KAPPA 0,40 – 0,60 é considerado regular.
KAPPA < 0,40 é considerado ruim.
No segundo exemplo, a concordância observada foi também, de 95%, mas os totais marginais foram muito diferentes.
ATUALMD≠1
SIM NÃO
MD≠2
SIM 46
NÃO 54
45 55 100
Calculamos a concordância esperada N, para qualquer célula, usando o mesmo procedimento anterior baseado nos totais marginais. Ex: a célula de valor mais baixo à direita é 54% de 55, que é 29,7.
ATUALMD≠1
SIM NÃO
MD≠2
SIM 46
NÃO 29,7 54
45 55 100
E, por subtração as outras células que estão abaixo. As células que indicam concordância estão ressaltadas em amarelo e somam 54,4%.
ATUALMD≠1
SIM NÃO
MD≠2
SIM 20,7 25,3 46
NÃO 24,3 29,7 54
45 55 100
ENTRE AS DUAS CONCORDÂNCIAS (C) NA FÓRMULA:
Neste exemplo, os observadores têm a mesma % de concordância, mas agora eles são muito diferentes do acaso (azar). O KAPPA de 0,90 é considerado excelente.
C. observada – C. esperada 1 – Concordância esperada
95% - 50,4% = 44,6% = 0,901 – 50,4% 49,6%
OUTRA FORMA DE CALCULAR KAPPA:
2(AD – BC) N1N4 + N2N3
Onde, os valores Ns são totais marginais, assim denominados:
MD≠1SIM NÃO
MD≠2
SIM A B N1
NÃO C D N2
N3 N4 Total
VEJA NOVAMENTE NA TABELA DO SLIDE 7. Para a TABELA 1:
2 (94 x 1 – 2 x 3) = 176 = 0,26 4 x 97 + 3 x 96 676
Para a TABELA 2:
2 (52 x 43 – 3 x 2) = 4460 = 0,9046 x 55 + 45 x 54 4960
NOTE O PARALELISMO ENTRE:
A ODDS RATIO - RAZÃO DE PROBABILIDADES
O QUI-QUADRADO ESTATÍSTICO
O KAPPA ESTATÍSTICO
Note que são centrais nas três expressões os produtos cruzados das tabelas de quatro células e suas relações com os totais marginais.
VALIDAÇÃO E MONITORAMENTO
AS TRÊS MEDIDAS CHAVES DA VALIDAÇÃO:
SENSIBILIDADE
ESPECIFICIDADE
VALORES PREVISTOS
TABELA DE QUATRO CÉLULAS PARA AVALIAR A RELAÇÃO DE TESTE-DOENÇA
ESTADOS DE DOENÇA
+ -RESULTADO
DO
TESTE
+DOENTE TESTE
POSITIVO
NÃO DOENTE TESTE
POSITIVO
TESTE
NEGATIVO
-DOENTE TESTE
NEGATIVO
LIVRE DE DOENÇA
TESTE NEGATIVO
TESTE POSITIVO
DOENTE NÃO DOENTE
SENSIBILIDADE
Ela nos indica o quanto um teste positivo detecta a doença.
É definida como a fração dos doentes com resultados positivos nos testes.
Seus complementos são as taxas dos testes falso negativos, definidas como a fração de doentes que dão resultados negativos nos testes. A sensibilidade e a taxa de falsos negativos somam UM.
ESPECIFICIDADE
Nos indica o quanto um teste negativo é bom para detectar nenhuma doença.
É definida como a fração dos não-doentes que deram testes negativos.
Seu complemento é a taxa de falsos positivos definida como a fração dos não-doentes cuja prova foi positiva.
Especificidade mais a taxa de falsos positivos dão UM.
VALORES PREVISTOS
VALOR PREVISTO POSITIVO é a proporção de todas as pessoas com resultados positivos que têm a doença.
VALOR PREVISTO NEGATIVO é a proporção de todas as pessoas com resultados negativos que não têm a doença.
Em geral, o valor previsto positivo é o mais utilizado. O valor previsto positivo e a sensibilidade são talvez, os dois parâmetros mais importantes para o entendimento da utilização de um teste sob as condições de campo.
PONTOS CHAVES PARA RELEMBRAR
Sensibilidade, especificidade, falsos positivos e falsos negativos são todos os denominadores comuns para doentes e não doentes (utilizamos no total das colunas).
Ao contrário, os valores previstos são denominadores para o status do teste, positivo ou negativo (utilizamos no total das seqüências).
Sensibilidade e especificidade não variam de acordo com a prevalência da doença na população. Os valores previstos de um teste, sem dúvida, são ALTAMENTE DEPENDENTES sob a prevalência da doença na população.
CALCULANDO SENSIBILIDADE, ESPECIFICIDADE E OS VALORES PREVISTOS Um teste é utilizado em 50 pessoas com uma doença e 50 pessoas sem a doença. Estes são os resultados:
DOENÇA
+ -
TESTE+ 48 3 51
- 2 47 49
50 50 100
Sensibilidade = 48/50 x 100 = 96%
Especificidade = 47/50 x 100 = 94%.
Valor previsto positivo = 48/51 x 100 = 94%.
Valor previsto negativo = 47/49 x 100 = 96%.
DOENÇA
+ -
TESTE+ 48 3 51
- 2 47 49
50 50 100
Agora, vamos aplicar este teste numa população onde 2% das pessoas têm a doença, não os 50% como no exemplo anterior. Suponha que existem 10.000 pessoas, e a mesma sensibilidade e especificidade anterior, com valores de 96% e 94% respectivamente.
DOENÇA
+ -
TESTE+ 192 588 780
- 8 9.212 9.220
200 9.800 10.000
AGORA, QUAL O VALOR POSITIVO PREVISTO? 192/780 X 100 = 24,6%.
Quando a prevalência de uma doença é de 50%, 94% dos testes positivos indicam a doença. Mas quando a prevalência é de somente 2%, menor que 1 em quatro nos resultados dos testes, estes indicam uma pessoa com a doença, e que atualmente 2% deveriam apresentar uma doença comum. Os resultados falsos positivos tendem a esconder-se em verdadeiros positivos nas populações, devido a que muitas doenças que testamos são raras.
MUDANDO O LIMITE DE UM TESTEQuando a doença é definida por um limiar num teste contínuo, as características do teste podem ser alteradas mudando-se o limite ou o PONTO DE CORTE (CUT-OFF).
Diminuir o limite melhora a sensibilidade, mas muitas vezes a custo de diminuir a especificidade (ex: mais falsos positivos).
Aumentar o limite melhora a especificidade, a custo da diminuição da sensibilidade (ex: mais falsos negativos).
Isto é especificamente importante quando a distribuição de uma característica é UNIMODAL, como a pressão arterial, colesterol, peso, etc (devido à zona cinza – borderline - ser muito ampla).
PROBLEMAS DE MONITORAMENTO
•Temos um correto limiar?
•Há um tratamento verdadeiramente efetivo disponível para a doença diagnosticada?
•Este tratamento é mais efetivo nos casos monitorados que nós não monitorados?
•Quais são os efeitos adversos do processo de monitoramento?
•O quanto eficiente é o monitoramento?
Ex: Quantas pessoas têm que ser monitoradas para se encontrar um caso?
EXEMPLO:
Um ensaio randomizado (aleatório) é implementado para se avaliar um programa de monitoramento para o câncer de colon.
O grupo da intervenção tem monitoramento regular, o grupo controle é deixado a mercê de seus próprios recursos.
APÓS CINCO ANOS ENCONTRAMOS QUE:
Mais casos são descobertos no grupo monitorado que no grupo controle.
Os casos são descobertos com antecedência aos estágios do câncer no grupo monitorado.
A sobrevida a cinco anos é maior nas pessoas com câncer monitoradas.
Podemos concluir que este programa de monitoramento é necessariamente efetivo?
NÃO, O PROGRAMA NÃO É NECESSARIAMENTE EFETIVO. Os benefícios aparentes só demonstram os efeitos do RISCO DEPENDENTE DO TEMPO.
Sendo possível diagnosticar uma condição de forma antecipada, isso não melhorará a sobrevida depois do diagnóstico; o programa de monitoramento terá uma super representação de casos diagnosticados mais cedo, cuja sobrevida será aumentada por exatamente o tempo em que seu diagnóstico foi feito de forma mais antecipada pelo programa de monitoramento.
Assim, eles não serão beneficiados, mas a quantidade de tempo que eles saberão que têm câncer terá aumentado.
CONSIDERE COMO O TEMPO DO DIAGNÓSTICO MUDA COM O MONITORAMENTO NO CENÁRIO ABAIXO:
GRUPO SEM MONITORAMENTO:
Dx MORTE
IDADE 50 51 52 53 54 55
GRUPO MONITORADO:
Dx MORTEIDADE 50 51 52 53 54 55
OUTROS RISCOS (BIAS) NO MONITORAMENTO: RISCO (BIAS) DE AMPLITUDE DE TEMPO •Muitas doenças crônicas, especialmente cânceres, não progridem com a mesma rapidez em todos os pacientes.
•Qualquer grupo de doentes incluirá alguns para os quais a doença se desenvolve mais lentamente e em outros se desenvolve mais rápido.
•Preferencialmente, o monitoramento incluirá doenças de desenvolvimento lento (com maior oportunidade de serem monitoradas) e que normalmente terá melhor prognóstico.
No cenário anterior, a incidência de doença é inicialmente mais alta, o diagnóstico é feito mais cedo, o estagio do diagnóstico é mais antecipado e a duração da sobrevida desde o diagnóstico é mais ampla.
Todos eles nos dão a impressão de benefícios do monitoramento.
Todavia o paciente não é beneficiado, visto que a morte não é adiada.
A única evidência de efetividade no programa de monitoramento é uma redução da morbidade ou mortalidade específica por total de idade, idealmente demonstrado num ensaio randomizado (aleatório).
Exercício de mamografia (Mamógrafo)
1. Menos de 50 anos, a sensibilidade é de 75%; acima dos 50 anos, a sensibilidade é de 90%.
2. Menos de 50 anos, 640 mamografias anormais foram confirmadas com 17 cânceres, a razão FP/TP é 623/17 = 36,7.
Acima dos 50 anos, 100 mamografias anormais, foram confirmadas 14 cânceres; a razão FP/TP é 86/14 = 6,1. Expressando-os como valores previstos positivos, teremos respectivamente: 17/640 x 100 = 2,7% e 14/100 x 100 = 14%.
Exercício de mamografia (Mamógrafo) (continuação)
3. Menos de 50 anos, a incidência é de 1,42/1000/ano (baseado em 37 mortes em 10000 em 10 anos).
Acima dos 50 anos, a incidência é de 2,5/1000/ano (baseado em 1/40/10 anos). MORTALIDADE – 0,67/1000/ano (baseado em 1/150 em 10 anos).
Top Related