O que fazer quando a distribuição não é normal

2
einstein: Educ Contin Saúde. 2009; 7(1 Pt 2): 3-4 Por dentro da estatística O que fazer quando a distribuição não é normal? Ângela Tavares Paes * * Doutora em Estatística do Centro de Pesquisa Clínica do Instituto Israelita de Ensino e Pesquisa Albert Einstein – IIEPAE, São Paulo (SP), Brasil. Ao aplicar um teste para comparação de médias ou um modelo de regressão, é necessário checar se as suposi- ções assumidas por estes testes são razoáveis. Os méto- dos estatísticos mais conhecidos supõem que a variável resposta (ou dependente) tem distribuição normal, po- rém, muitos usuários da estatística ignoram tal suposi- ção e utilizam os testes sem se preocupar com a distri- buição dos dados. Por outro lado, aqueles mais cuida- dosos que costumam verificar se a distribuição é ou não normal, buscam métodos alternativos nas situações em que esta suposição não está satisfeita. Antes de responder o que fazer quando a distribui- ção não é normal, é natural pensar em outras perguntas como “O que é distribuição normal?”; “Por que bus- camos a distribuição normal? e “Como verificar se os dados seguem uma distribuição normal?”. O que é distribuição normal? Uma distribuição de probabilidades é uma função matemática usada para descrever o padrão de variação de uma variável contí- nua. A função matemática que representa a distribuição normal envolve dois parâmetros (média e variância), a curva que a descreve tem forma de “sino” e sua princi- pal propriedade é a simetria em torno da média. A cur- va normal é também conhecida como “curva de Gauss” devido à suposição de que Gauss foi o primeiro a fazer uso de suas propriedades para aplicações práticas. Ângela Tavares Paes Editora da seção O uso de métodos estatísticos vem crescendo vigorosamente em pesquisas da área médica. Com freqüência, médicos e profissionais da Saúde são expostos a informações provenientes de análises de dados, nem sempre claras e de fácil interpretação. Esta seção visa familiarizar pesquisadores com conceitos e termos estatísticos comumente presentes em artigos científicos. Com ênfase na discussão conceitual em detrimento a fórmulas matemáticas, o objetivo é esclarecer algumas dúvidas freqüentes e contribuir com o desenvolvimento do senso crítico na hora de analisar, descrever e interpretar dados. Por que buscamos a distribuição normal? Os mé- todos paramétricos baseiam-se na suposição de que os dados observados na amostra são provenientes de uma população com distribuição de forma teórica conheci- da. A suposição de que os dados seguem uma distri- buição normal é assumida para a maioria dos métodos estatísticos mais utilizados na pesquisa médica, como o teste t de Student, ANOVA, regressão linear e interva- los de confiança. Este fato somado a resultados teóricos fundamentais (teorema do limite central) faz com que a distribuição normal seja a distribuição teórica mais im- portante em estatística. Como verificar se os dados seguem uma distribui- ção normal? Em qualquer análise de dados, a etapa inicial é fazer uma boa análise descritiva. A norma- lidade dos dados pode ser analisada descritivamente por meio de histogramas, box-plots, análise da distân- cia entre média e mediana e coeficientes de assimetria e curtose, que medem, respectivamente, o grau de des- vio ou afastamento da simetria e do achatamento da distribuição. Além dos métodos descritivos, existem testes de hipóteses que avaliam a normalidade, como por exemplo, os testes de Kolmogorov-Smirnov e de Shapiro-Wilks. No entanto, é importante ressaltar que esses testes são extremamente rigorosos e facilmente rejeitam a hipótese de normalidade. Portanto, deve- mos ter cautela e não basear a decisão apenas nos ní- veis descritivos (valores de p) desses testes. Após a análise preliminar e a constatação de que a distribuição normal não pode ser assumida, algu- mas alternativas podem ser adotadas. A mais comum é utilizar testes não-paramétricos, que não assumem nenhuma distribuição teórica para os dados. Os testes

Transcript of O que fazer quando a distribuição não é normal

Page 1: O que fazer quando a distribuição não é normal

einstein: Educ Contin Saúde. 2009; 7(1 Pt 2): 3-4

Por dentro da estatística

O que fazer quando a distribuição não é normal?Ângela Tavares Paes*

* Doutora em Estatística do Centro de Pesquisa Clínica do Instituto Israelita de Ensino e Pesquisa Albert Einstein – IIEPAE, São Paulo (SP), Brasil.

Ao aplicar um teste para comparação de médias ou um modelo de regressão, é necessário checar se as suposi-ções assumidas por estes testes são razoáveis. Os méto-dos estatísticos mais conhecidos supõem que a variável resposta (ou dependente) tem distribuição normal, po-rém, muitos usuários da estatística ignoram tal suposi-ção e utilizam os testes sem se preocupar com a distri-buição dos dados. Por outro lado, aqueles mais cuida-dosos que costumam verificar se a distribuição é ou não normal, buscam métodos alternativos nas situações em que esta suposição não está satisfeita.

Antes de responder o que fazer quando a distribui-ção não é normal, é natural pensar em outras perguntas como “O que é distribuição normal?”; “Por que bus-camos a distribuição normal? e “Como verificar se os dados seguem uma distribuição normal?”.

O que é distribuição normal? Uma distribuição de probabilidades é uma função matemática usada para descrever o padrão de variação de uma variável contí-nua. A função matemática que representa a distribuição normal envolve dois parâmetros (média e variância), a curva que a descreve tem forma de “sino” e sua princi-pal propriedade é a simetria em torno da média. A cur-va normal é também conhecida como “curva de Gauss” devido à suposição de que Gauss foi o primeiro a fazer uso de suas propriedades para aplicações práticas.

Ângela Tavares PaesEditora da seção

O uso de métodos estatísticos vem crescendo vigorosamente em pesquisas da área médica. Com freqüência, médicos e profissionais da Saúde são expostos a informações provenientes de análises de dados, nem sempre claras e de fácil interpretação. Esta seção visa familiarizar pesquisadores com conceitos e termos estatísticos comumente presentes em artigos científicos. Com ênfase na discussão conceitual em detrimento a fórmulas matemáticas, o objetivo é esclarecer algumas dúvidas freqüentes e contribuir com o desenvolvimento do senso crítico na hora de analisar, descrever e interpretar dados.

Por que buscamos a distribuição normal? Os mé-todos paramétricos baseiam-se na suposição de que os dados observados na amostra são provenientes de uma população com distribuição de forma teórica conheci-da. A suposição de que os dados seguem uma distri-buição normal é assumida para a maioria dos métodos estatísticos mais utilizados na pesquisa médica, como o teste t de Student, ANOVA, regressão linear e interva-los de confiança. Este fato somado a resultados teóricos fundamentais (teorema do limite central) faz com que a distribuição normal seja a distribuição teórica mais im-portante em estatística.

Como verificar se os dados seguem uma distribui-ção normal? Em qualquer análise de dados, a etapa inicial é fazer uma boa análise descritiva. A norma-lidade dos dados pode ser analisada descritivamente por meio de histogramas, box-plots, análise da distân-cia entre média e mediana e coeficientes de assimetria e curtose, que medem, respectivamente, o grau de des-vio ou afastamento da simetria e do achatamento da distribuição. Além dos métodos descritivos, existem testes de hipóteses que avaliam a normalidade, como por exemplo, os testes de Kolmogorov-Smirnov e de Shapiro-Wilks. No entanto, é importante ressaltar que esses testes são extremamente rigorosos e facilmente rejeitam a hipótese de normalidade. Portanto, deve-mos ter cautela e não basear a decisão apenas nos ní-veis descritivos (valores de p) desses testes.

Após a análise preliminar e a constatação de que a distribuição normal não pode ser assumida, algu-mas alternativas podem ser adotadas. A mais comum é utilizar testes não-paramétricos, que não assumem nenhuma distribuição teórica para os dados. Os testes

Page 2: O que fazer quando a distribuição não é normal

einstein: Educ Contin Saúde. 2009; 7(1 Pt 2): 3-4

4

não-paramétricos mais conhecidos são o Mann Whit-ney como alternativa ao teste t de Student, Wilcoxon como alternativa ao teste t pareado e Kruskall-Wallis como alternativa à ANOVA com um fator. Apesar de parecer uma solução relativamente simples, a grande desvantagem dos testes não-paramétricos é que eles tendem a ser bem menos poderosos que os paramé-tricos. Além disso, sua aplicação torna-se mais difícil quando a análise é um pouco mais complexa, como por exemplo, comparações de médias envolvendo mais de um fator. É importante observar também que os testes paramétricos são bastante robustos, isto é, os resultados são válidos mesmo quando há pequenos desvios da normalidade. Por esta razão, torna-se mais atraente buscar alternativas paramétricas com maior poder estatístico e consequentemente com resultados mais robustos e confiáveis.

Muitas vezes a violação da distribuição é devida à assimetria. Isto acontece com frequência em dados laboratoriais como, por exemplo, contagens de célu-las ou dosagens de substâncias, nas quais há muita variabilidade, mas com uma grande concentração nos valores menores, próximos a zero. Nesse caso, uma opção é transformar os dados em escala logarítmica. A transformação logarítmica é a mais comum e geral-mente resolve os problemas de assimetria, mas exis-tem outras transformações que podem ser utilizadas dependendo da característica dos dados. Por exemplo, a transformação raiz quadrada é mais usada quando a variável é uma contagem e é esperada uma distribui-ção de Poisson. A transformação recíproca (1/x) tem um efeito muito mais drástico do que tomar o loga-ritmo e pode ser útil se os dados observados têm uma distribuição extremamente assimétrica. Às vezes há uma forte razão para utilizar uma particular transfor-mação, por exemplo, a raiz cúbica pode ser apropriada para dados que são volumes. A principal dificuldade em usar transformações é a interpretação de dados transformados e a volta à escala original, que não é direta para as medidas de desvio padrão.

A distribuição normal é considerada para variáveis contínuas, mas na prática ela também é assumida para variáveis discretas com grande variabilidade e em amos-tras relativamente grandes. Para variáveis quantitativas discretas com pouca variabilidade, por exemplo, escores de instrumentos, número de erros em um teste psico-métrico, número de eventos prévios, etc, uma possível

alternativa é a categorização (agrupamento em faixas de valores). Com a variável categorizada, testes como o χ2 para comparar distribuições de frequências podem ser utilizados no lugar de comparações de médias. No entanto, deve-se ressaltar que qualquer categorização implica em perda de informação, logo, a categorização só deve ser feita se as categorias fizerem sentido e favo-recerem a interpretação.

Quando a transformação não é capaz de corrigir o problema e não faz sentido categorizar a variável, uma alternativa é utilizar modelos com outras distri-buições. Sim, existe vida além da distribuição normal e dos testes não-paramétricos. Por exemplo, para dados de contagem, é comum utilizar a distribuição de Poisson. Para variáveis contínuas positivas (por exemplo, dados relacionados a medidas de tempo), podemos utilizar uma distribuição exponencial, gama ou Weibull. Apesar da teoria de modelos paramétri-cos com outras distribuições já estar consolidada há décadas, tais modelos ainda são pouco utilizados na pesquisa médica.

Existe uma “crença” no meio médico que diz que para amostras pequenas devem ser utilizados testes não-paramétricos. É claro que em amostras pequenas podem ser observados maiores desvios da distribuição normal, mas devemos considerar a natureza da variável e analisar a distribuição de frequências dos dados ob-servados. Amostras provenientes de uma distribuição normal, não necessariamente parecem ter esta distri-buição, especialmente se a amostra é pequena. Isto não significa que sempre que a amostra é pequena, deve-se assumir distribuição não-normal.

Com base no que foi comentado, ficam aqui duas sugestões para uma análise de dados adequada. Primei-ro, não avaliar a normalidade única e exclusivamente por testes de hipóteses. Segundo, antes de partir dire-tamente para os testes não-paramétricos, vale a pena tentar transformações e outras distribuições(1-3).

REFERÊNCIAS 1. Altman DG. Practical statistics for medical research. Boca Raton (FL): Chapman

& Hall; 1991.

2. Bland JM, Altman DG. Transformations, means and confidence intervals. BMJ. 1996;312(7038):1079.

3. Vieira S. Bioestatística: tópicos avançados. Rio de Janeiro: Campos; 2003. Capítulo 2.