Post on 29-Dec-2015
APOSTILA DE BIOESTATÍSTICA
BÁSICA
PARTE 2
Professores:
Profa. Luégya A. Henriques Knop
Prof. Ricardo Lima Shintcovsk
2009
APOSTILA DISCIPLINA BIOESTATÍSTICA BÁSICA – PARTE 2
INTRODUÇÃO
Nesta segunda parte da apostila, serão estudados
probabilidades, Bioestatística Indutiva e testes estatísticos.
2. PROBABILIDADES
Embora o cálculo das probabilidades pertença ao campo da Matemática,
sua inclusão nesta apostila se justifica pelo fato de a maioria dos fenômenos de
que trata a Estatística ser de natureza aleatória ou probabilística.
Conseqüentemente, o conhecimento dos aspectos fundamentais do cálculo de
probabilidades é uma necessidade essencial para o estudo da Estatística
Indutiva ou Inferencial. Procuramos resumir aqui os conhecimentos que
julgamos necessários para termos um ponto de apoio em nossos primeiros
passos no caminho da Estatística Inferencial.
2.1.1. EXPERIMENTO ALEATÓRIO
Em quase tudo, em maior ou menor grau, vislumbramos o acaso. Assim,
da afirmação ”é provável que o meu time ganhe a partida de hoje” pode
resultar: a). que, apesar do favoritismo, ele perca; b) que, como pensamos, ele
ganhe; c) que empate. Como vimos, o resultado final depende do acaso.
Fenômenos como esse, são chamados fenômenos aleatórios ou experimentos
aleatórios.
Experimentos ou fenômenos aleatórios são aqueles que, mesmo
repetidos várias vezes sob condições semelhantes, apresentam resultados
imprevisíveis.
2.1.2. ESPAÇO AMOSTRAL
A cada experimento correspondem, em geral,vários resultados
possíveis. Assim, ao lançarmos uma moeda, há dois resultados possíveis:
ocorrer cara ou ocorrer coroa. Já ao lançarmos um dado há seis resultados
possíveis: 1, 2, 3, 4, 5 ou 6.
Ao conjunto desses resultados possíveis damos o nome de espaço
amostral ou conjunto universo, representado por S.
Os dois experimentos citados anteriormente têm os seguintes espaços
amostrais:
– Lançamento de uma moeda: S = (Ca, Co);
– Lançamento de um dado: S = (1, 2, 3, 4, 5, 6).
Do mesmo modo, como em dois lançamentos sucessivos de uma
moeda podemos obter cara nos dois lançamentos, ou cara no primeiro e coroa
no segundo, ou coroa no primeiro e cara no segundo, ou coroa nos dois
lançamentos, o espaço amostral é:
S = {(Ca, Ca), (Ca, Co), (Co, Ca), (Co, Co)}.
Cada um dos elementos de S que corresponde a um resultado
recebe o nome de ponto amostral. Assim:
2 ∈ S → 2 é um ponto amostral de S.
2.1.3. EVENTOS
Chamamos de evento qualquer subconjunto do espaço amostral S
de um experimento aleatório.
Assim, qualquer que seja E, se E ⊂ S (E está contido em S), então E é
um evento de S.
Se E = S, E é chamado evento certo. Se E ⊂ S e E é um conjunto
unitário, E é chamado evento elementar.
Se E = Ø, E é chamado evento impossível.
No lançamento de um dado, onde S = {1, 2, 3, 4, 5, 6}, temos:
A = (2, 4, 6) ⊂ S; logo, A é um evento de S.
B = { l, 2, 3, 4, 5, 6} ⊂ S; logo, B é um evento certo de S (B = S).
C = {4} ⊂ S; logo, C é um evento elementar de S.
D = Ø ⊂ S; logo, D é um evento impossível de S.
Um evento é sempre definido por uma sentença. Assim, os eventos
acima podem ser definidos pelas sentenças:
“Obter um número par na face superior”.
“Obter um número menor ou igual a 6 na face superior”.
“Obter o número 4 na face superior”.
“Obter um número maior que 6 na face superior”.
2.2. PROBABILIDADES
As decisões nos negócios são freqüentemente baseados na análise de
incertezas tais como as seguintes:
a) Quais são as chances de as vendas decrescerem se aumentarmos os
preços?
b) Qual a plausibilidade de um novo método de montagem aumentar a
produtividade?
c) Qual a probabilidade de o projeto terminar no prazo?
d) Quais são as chances de um novo investimento ser lucrativo?
A probabilidade é uma medida numérica da plausibilidade de que um
evento ocorrerá. Assim, as probabilidades podem ser usadas como medidas do
grau de incerteza associado aos quatro eventos previamente listados. Se as
probabilidades estiverem disponíveis, poderemos determinar a plausibilidade
de cada evento ocorrer.
Os valores da probabilidade são sempre atribuídos numa escala de 0 a
1. A probabilidade próxima de zero indica um evento improvável de ocorrer;
uma probabilidade próxima de 1 indica um evento quase certo.
2.2.1. DEFINIÇÃO CLÁSSICA OU “A PRIORI”
Se um evento pode ocorrer de h maneiras diferentes, em um total de n
maneiras possíveis (todas igualmente prováveis), então a probabilidade do
evento é h/n.
Suponha-se que desejemos determinar a probabilidade do aparecimento
de 1 cara em uma jogada de uma moeda. Como há dois resultados igualmente
prováveis, a saber, “cara” e “coroa” (admite-se que a moeda não se detenha
sobre seu bordo), e como só há uma maneira de aparecer “cara”, dizemos que
a probabilidade do evento “cara” na jogada de uma moeda é ½. Naturalmente,
para que tal conclusão seja válida, é preciso que a moeda seja “honesta”, ou
“não-viciada”.
Dado um experimento aleatório, sendo S o seu espaço amostral, vamos
admitir que todos os elementos de S tenham a mesma chance de acontecer,
ou seja, que S é um conjunto equiprovável.
Chamamos de probabilidade de um evento A (A ⊂ S) o número real
P(A), tal que:
onde:
n(A) é o número de elementos de A;
n(S) é o número de elementos de S.
Exemplos:
Considerando o lançamento de uma moeda e o evento A ”obter cara”,
temos:
Logo:
O resultado acima nos permite afirmar que, ao lançarmos uma moeda
equilibrada, temos 50% de chance de que apareça cara na face superior.
Considerando o lançamento de um dado, vamos calcular:
- a probabilidade do evento A ”obter um número par na face superior”.
Temos:
- a probabilidade do evento B ”obter um número menor ou igual a 6 na face
superior”.
Temos:
- a probabilidade do evento C ”obter um número 4 na face superior”.
Temos:
- a probabilidade do evento D ”obter um número maior que 6 na face superior”.
Temos:
Considerando o jogo de cartas (52 cartas):
Um baralho de 52 cartas tem quatro naipes: copas, espadas, paus, ouros.
Cada naipe tem 13 cartas sendo três figuras. Doze figuras no total. Veja a
figura abaixo.
- a probabilidade do evento C(sair uma figura na retirada de uma carta)
Temos:
Considerando um jogo de futebol ou basquetebol ou handebol:
Qualquer um desses jogos acima tem três
resultados possíveis: S = {Vencer, perder, empatar}.
- a probabilidade de um time vencer é:
S = {Vencer, perder, empatar}.
D = {Vencer}
Temos:
Pelos exemplos que acabamos de ver, podemos concluir que, sendo
n(S) = n:
a) a probabilidade do evento certo é igual a l:
P(S) = 1
b) a probabilidade do evento impossível é igual a zero:
P(Ø) = 0
c) a probabilidade de um evento E qualquer (E ⊂ S) é um número real P(E), tal
que:
0 ≤ P(E) ≤ 1
d) a probabilidade de um evento elementar E qualquer é, lembrando que n(E)
= 1:
2.3. PROBABILIDADE CONDICIONAL
O problema da interseção entre eventos não mutuamente exclusivos
requer o emprego da probabilidade condicional, expressa matematicamente
assim:
P(B│A) ou probabilidade de ocorrer o evento B desde que (dado que)
tenha ocorrido o evento A. A probabilidade condicional é utilizada para
determinar a ocorrência de um evento quando este é afetado por outra
condição.
Por exemplo, no caso da retirada de um rei no jogo de cartas,
considerando-se um total de 52 cartas, sendo 13 de cada naipe:
A probabilidade de retirar um rei, tendo sido previamente retirado um rei,
é assim determinada:
que é o mesmo valor determinado inicialmente (p/2º Rei)=0,0588.
2.4. EVENTOS DEPENDENTES E INDEPENDENTES
A utilização da probabilidade condicional P(B|A) está intimamente
relacionada ao conceito de eventos dependentes e independentes. De um
modo geral, dizemos que dois eventos são independentes quando a ocorrência
de um não tem o menor efeito na probabilidade de ocorrência do outro. Dando
um exemplo do nosso cotidiano, se um casal tem três filhos do sexo masculino
e deseja que o próximo seja do sexo feminino, a ocorrência anterior de três
filhos do sexo masculino influi na probabilidade de que, na quarta gestação, a
criança seja do sexo feminino? Evidentemente não, pois a chance de nascer
uma menina continua sendo p = ½, independentemente do sexo dos filhos que
nasceram anteriormente.
Consideremos mais um exemplo de probabilidade condicional
relacionando-o aos eventos dependentes e independentes. Seja um
experimento de lançar dois dados: A é o evento em que, no primeiro dado,
aparece um número par, e B o evento em que a soma dos pontos de ambos os
dados é quatro.
A = {2, 4, 6} B = {1,3; 2,2; 3,1}
O espaço amostral do evento A abrange três elementos: dois, quatro e
seis; como o total de possibilidade é seis, temos P (A) =3/6=1/2 . Em relação
ao evento B, o espaço amostral compreender os seguintes elementos: 1,3; 2,2;
3,1, cada soma totalizando quatro. Cada dado tem seis números. A
combinação dos seis números dois a dois, pois trata-se de dois dados, leva a
trinta e seis resultados.
Como são três elementos em 36 combinações possíveis, teremos para o
evento B: P(B) = 3/36=1/12.
Examinemos agora a probabilidade condicional para essa situação. Os
eventos são dependentes, pois desejamos saber a probabilidade de uma soma
de quatro pontos dos dois dados, sendo que no primeiro ocorreu um número
par. Traduzindo esta frase para a linguagem da probabilidade condicional
teremos:
P(B|A) = 1/36.
Então, ao fazermos 36 lançamentos de dois dados, apenas o elemento
(2,2) atende aos critérios referidos nos eventos A e B. Temos, como regra
geral, que para eventos dependentes, P (B) ≠ P(B|A); isto quer dizer que o fato
de um evento influir no outro afeta a probabilidade de ocorrência desse outro.
Neste caso constatamos que realmente
No exemplo a seguir, ilustraremos o assunto utilizando uma mesma situação
em que podem ocorrer eventos dependentes ou independentes: é o caso do
jogo de cartas, que se presta aos dois tipos de ocorrências. Vejamos a primeira
possibilidade, relativa a retirada sucessiva de duas cartas de um baralho, sem
que a primeira seja nele reposta. Seja A o evento em que a primeira carta é um
rei e B o evento em que a segunda carta é um ás. Os eventos são
dependentes, pois a retirada de uma carta diminui o total de cartas de 52 para
51. Temos, então, como probabilidade de retirar em primeiro lugar um rei P (A)
= 4/52, pois existem 52 quatro reis no baralho. Já na segunda retirada,
contamos com um total de 51 cartas e quatro ases, então P(B|A) = 4/51.
Observamos aí que a segunda retirada de carta sofreu efeito da primeira.
Convém ainda destacar que, neste exemplo, P (A) = 4/52 e P(B|A) = 4/51, o
que confirma matematicamente a dependência dos eventos.
O que ocorreria se a primeira carta retirada, o rei, fosse recolocada no
baralho, que voltaria a ter 52 cartas?
Neste caso, teríamos dois eventos independentes, pois a retirada da
primeira carta não influi na probabilidade de retirada da segunda. Obteríamos,
então:
Neste contexto, as probabilidades de retirada de um rei e logo após de
um ás são equivalentes.
2.5. REGRAS DE MULTIPLICAÇÃO (TEOREMA DO PRODUTO)
A interseção de dois eventos A e B de um espaço amostral é designada
por P (A ∩ B). A ocorrência conjunta de A e B implica na observação apenas
dos elementos comuns aos dois eventos.
Para determinar matematicamente esta interseção, utilizamos a regra de
multiplicação, que difere conforme os eventos sejam dependentes ou
independentes. Para eventos independentes, a regra é a seguinte:
A probabilidade de que ocorra um evento e o outro – ênfase na
conjunção E – é obtida pelo produto das probabilidades dos dois eventos.
Vejamos um exemplo: suponhamos que, ao lançar dois dados, queremos que
no primeiro apareça o número 6 (A) e no segundo o número 4 (B). Os dois
eventos são independentes? Sim, pois a ocorrência de um não influi na
ocorrência do outro. Como resolver então o problema?
Em primeiro lugar, temos que P (A) = 1/6, pois existe uma única face
dentre as seis existentes que pode apresentar o número seis. P(B)=1/6, por
razões similares. Aplicando a fórmula acima teremos:
Assim, a probabilidade de que no lançamento de dois dados seja
retirado um seis e um quatro, no primeiro e no segundo dado, respectivamente
é de 1/36.
Examinemos agora um exemplo da regra de multiplicação para eventos
dependentes. Estes, como já foram mencionados, requerem a utilização da
probabilidade condicional. Como um evento influi na probabilidade do outro, o
segundo elemento da fórmula para o produto é modificado, ficando assim:
A situação é a seguinte: ao se retirar duas cartas de um baralho, sem
reposição, queremos que uma e outra sejam ás. Estes eventos são
independentes? Não, pois há uma diminuição no total de cartas (de 52 para 51)
e no total de ases (de quatro para três). Neste caso, a retirada da primeira carta
influi na probabilidade da segunda. Aplicando a fórmula, teríamos:
Na mesma situação de jogo de cartas, desde que haja reposição (o que
caracteriza os eventos independentes), se queremos obter um ás (A) e um rei
(B), a determinação de sua probabilidade conjunta se simplificada. Voltando-se
a utilizar a primeira fórmula de produto, temos:
2.5. REUNIÃO DE EVENTOS (TEOREMA DA SOMA)
Até agora nos preocupamos em aprender a determinar a probabilidade
de ocorrência conjunta de dois eventos, expressa como probabilidade de A e B
– P(A B). Examinemos, agora, outro ângulo a ser considerado: a ocorrência de
um evento ou outro ou ambos. Consideremos o seguinte exemplo: estamos
fazendo uma primeira entrevista com um paciente e suspeitamos de que ele
possa ter problemas na área familiar ou social; isto não quer dizer que ambas
as áreas não possam estar comprometidas. Então, o paciente pode ter
dificuldades na área familiar ou social ou em ambas. Este exemplo ilustra, com
bastante clareza, a diferença entre interseção - multiplicação de eventos e
reunião - adição de eventos. Enquanto no primeiro caso lidamos com pelo
menos dois eventos, em que nosso único interesse é o que há de comum entre
eles – expresso por um E – no segundo focalizamos apenas um evento,
propondo várias alternativas possíveis – o que é caracterizado pela expressão
OU. A expressão P (A ou B) é formulada matematicamente assim: P (A ∪ B).
Da mesma forma que para a multiplicação de probabilidades a adição
também apresenta duas estratégias, relacionadas ao fato de os eventos serem
ou não mutuamente exclusivos. O uso da palavra OU tem então dois sentidos
diferentes, sendo freqüente que tenhamos de adivinhar a qual delas nos
referimos. Se Joaquim diz: “Vou levar Patrícia ou Lúcia ao baile de sábado”,
presumimos que levará uma ou outra, mas não ambas. Nesse contexto, os
eventos são mutuamente exclusivos e o uso do OU é denominado ”ou
exclusivo”, pois fica excluída a possibilidade de ambos os eventos ocorrerem
simultaneamente.
Já quando um professor diz aos seus alunos: ”Darei um MB (muito bom) a
todos os que obtiverem notas superiores a 89 nas provas mensais ou a todos
cuja nota seja superior a 94 no exame final”, qual o significado de sua
afirmação?
O aluno que obtiver ambas as notas superiores a esses valores mínimos
ficará excluído do MB? O aluno só ganhará um MB se obtiver nota superior a
89 nas provas mensais ou nota superior a 94 no exame final? Neste caso,
configura-se o ”ou inclusivo”, pois os eventos não são mutuamente exclusivos.
O aluno pode ter nota superior a 89 nas provas mensais ou superior a 94 no
exame final ou ambos.
Estando claras as duas situações - eventos mutuamente exclusivos ou não –,
como aplicar a elas as regras de adição ou reunião de eventos?
Ao retirarmos uma carta de um baralho, os eventos rei (A) e ás (B) são
mutuamente exclusivos, pois não podem ocorrer simultaneamente.
Neste caso, a probabilidade de tirar um rei ou um ás é a seguinte:
A regra de adição para dois eventos mutuamente exclusivos é, portanto,
a seguinte:
3. PROBABILIDADE E TESTE DE HIPÓTESE
O objetivo do emprego da estatística em pesquisas científicas
não se resume apenas à descrição dos valores e à caracterização
da distribuição dos dados da amostra. É importante e imprescindível
que o pesquisador busque estabelecer inferências sobre a
população, com base na amostra estudada. Entretanto, como a
investigação científica tem suas limitações, não se pode considerar
que todas essas inferências estejam absolutamente corretas. Dessa
forma, para se estabelecer conclusões científicas válidas, é
necessário definir o risco assumido pelo pesquisador ao se
estabelecer conclusões a partir da amostra pesquisada. Para tanto,
o estabelecimento de inferências estatísticas se baseia no
conhecimento de princípios probabilísticos a partir da distribuição de
probabilidades dos dados (distribuição normal ou curva de Gauss,
distribuição t de Student, distribuição F de Snedecor, distribuição
qui-quadrado, etc.).
A figura 3 corresponde à probabilidade de ocorrência de um
evento e ilustra o problema da inferência. Observa-se que a
probabilidade de ocorrência de um valor é maior próximo do ponto
central da distribuição normal, correspondente à média. À medida
que os valores se distribuem, para mais ou para menos em relação
à média, sua probabilidade de ocorrência se torna menor quanto
mais extremo for esse valor. O desvio padrão corresponde ao ponto
de inflexão da curva, separando os valores mais comuns (mais
próximos da média) dos valores menos comuns (mais distantes da
média).
A curva normal é definida a partir de dois parâmetros: média e
desvio padrão. A distribuição normal é a distribuição contínua de
probabilidade mais importante, em função de que:
a) representa com boa aproximação as distribuições de freqüências
observadas de muitos fenômenos naturais e físicos;
b) tanto as distribuições de médias como de proporções em
grandes amostras tendem a ser distribuídas normalmente, o que
tem grande importância em amostragem.
Se os dados se distribuem segundo a curva normal, pode-se
afirmar que:
a) aproximadamente 68,26% dos dados se localizam entre a média
mais ou menos um desvio padrão;
b) aproximadamente 95,44% dos dados se localizam entre a média
mais ou menos dois desvios padrões;
c) aproximadamente 99,74% dos dados se localizam entre a média
mais ou menos três desvios padrões.
Para se obter resultados conclusivos a partir de amostras de
uma população é necessário estabelecer certas hipóteses iniciais
que serão testadas utilizando métodos estatísticos apropriados que
permitirão aceitá-las ou rejeitá-las. O objetivo de se testar uma
hipótese é permitir, a partir de uma única amostra, generalizações
para a população da qual a amostra foi extraída.
3.1 DEFINIÇÃO DA HIPÓTESE ESTATÍSTICA
Freqüentemente precisamos tomar decisões sobre
populações, com base em informações amostrais, as quais são
chamadas de decisões estatísticas. Por exemplo, com base em
resultados amostrais, podemos querer decidir se determinada
resina é melhor do que outra, se um processo educacional é mais
eficiente, se determinado medicamento é mais eficiente, etc. Assim,
admite-se inicialmente, um valor hipotético para um parâmetro
populacional desconhecido (média, mediana, desvio padrão,
proporção) e, a seguir, baseando-se em informações obtidas da
amostra, aceita-se ou não esse valor.
Os testes de hipóteses podem ser divididos em paramétricos
e não-paramétricos. Os testes de hipóteses paramétricos se
referem às hipóteses sobre os parâmetros populacionais e
dependem de pressuposições sobre a forma da distribuição da
população (distribuições normais ou amostras maiores que 30). Por
outro lado, os testes de hipóteses não-paramétricos se referem às
hipóteses sobre os parâmetros populacionais e não dependem de
pressuposições sobre a forma da distribuição da população.
O processo de testar a significância estatística envolve seis
passos básicos:
1º Estabelecer a hipótese nula Ho;
2º Estabelecer a hipótese alternativa H1;
3º Fixar o nível de significância α;
4º Determinar a região de rejeição da hipótese nula Ho;
5º Definir o tamanho da amostra, coletar os dados e calcular o valor da
estatística correspondente;
6º Rejeitar ou aceitar Ho, conforme o valor da estatística baseada na
amostra cair na região de rejeição ou na região de aceitação.
Admitindo-se que duas amostras tenham sido obtidas de uma população
e se deseje testar, em relação a uma determinada característica, se a diferença
encontrada entre as duas amostras é devida ao acaso, como conseqüência da
variabilidade dos dados, ou se, de fato, as amostras são diferentes, a aplicação
do teste consiste na definição de duas hipóteses iniciais: a hipótese nula (H0),
afirmando que não há diferença entre os dois grupos, trata-se de uma hipótese
que atribui ao acaso a ocorrência do resultado observado; e a hipótese
alternativa (H1), afirmando que há diferença entre eles. Após a aplicação de um
teste estatístico apropriado para a comparação das médias, se há evidência
amostral para se rejeitar a hipótese nula, então se conclui pela hipótese
alternativa. Por outro lado, se o teste não evidencia diferença entre os grupos,
a hipótese nula não é rejeitada. O fato da hipótese nula não ser rejeitada não
implica, necessariamente, que ela seja verdadeira, mas que as evidências
obtidas a partir da amostra analisada não são suficientes para rejeitá-la.
3.2. DETERMINAÇÃO DO NÍVEL DE SIGNIFICÂNCIA ALFA PARA O TESTE
ESTATÍSTICO E DO VALOR DE P
O nível de significância alfa, representado pela letra grega alfa (α),
corresponde à probabilidade máxima assumida pelo pesquisador para fazer
uma inferência estatística. O nível de significância α corresponde à
probabilidade de se rejeitar incorretamente a hipótese nula quando ela é, na
realidade, verdadeira. Como é extremamente indesejável se rejeitar uma
hipótese nula verdadeira, esse risco assumido deve ser baixo. Os valores
normalmente utilizados são 0,05 (5%) e 0,01 (1%).
O nível de significância α está intimamente relacionado ao valor de p,
obtido com a aplicação do teste estatístico. O valor de p é considerado a
probabilidade do resultado observado ser devido apenas ao acaso. Se o valor
de p for menor ou igual que o valor de α estabelecido a priori, a hipótese nula é
rejeitada.
Considera-se, nesse caso, que há diferença estatisticamente significante
entre as médias das amostras. Caso ocorra o contrário, ou seja, se o valor de p
for maior que o valor de α, a hipótese nula não é rejeitada e a diferença entre
as médias das amostras é, então, considerada não significante.
3.3. ERRO ESTATÍSTICO
Em função de vários fatores como imprecisões nos métodos de coleta
dos dados, influência de fatores externos ou mesmo à variabilidade natural que
ocorre nos dados, existe a possibilidade do pesquisador decidir erroneamente
ao testar uma hipótese.
Dois erros são possíveis:
Erro tipo I – É o erro cometido quando se rejeita a hipótese nula, sendo que a
mesma é verdadeira. Também denominado erro alfa (α) ou erro falso-positivo.
Erro tipo II – É o erro cometido quando se aceita a hipótese nula, sendo que a
mesma é falsa, também denominado erro beta (β) ou erro falso-negativo.
A adoção de um valor de α pequeno (p ≤ 0,05) é necessária para evitar o
erro tipo I. Amostras pequenas e análises sucessivas podem aumentar o risco
de se incorrer em erro do tipo I, ou seja, de se encontrar uma diferença quando
ela, na verdade, não existe. Se o valor de p é pequeno, a diferença encontrada
tem pouca chance de ser devida ao acaso – variabilidade inerente das
amostras – conclui-se, portanto que as populações são, com grandes
probabilidades, diferentes, e espera-se que em menos de cinco vezes em 100
de que tal resultado seja devido ao efeito do acaso na composição das
amostras.
O erro tipo II (β) ocorre devido à presença de grande variabilidade dos
dados, amostras pequenas e métodos experimentais incorretos. Esses fatores
aumentam a possibilidade de não se detectar uma diferença quando, na
verdade, ela ocorre. Um valor de β considerado aceitável é de 10 a 20%.
Considerando β como sendo a probabilidade de erro tipo II, é possível
determinar o poder do teste como sendo igual a (1-β). É a probabilidade de
corretamente rejeitar uma hipótese nula quando ela for falsa. Um teste
estatístico tem mais poder quanto mais for capaz de rejeitar uma hipótese nula
quando ela, de fato for falsa, ou seja, o poder corresponde à capacidade do
estudo em detectar diferenças. O poder do estudo é muitas vezes utilizado
para o planejamento do tamanho da amostra e para ajudar na interpretação de
um experimento em que a diferença encontrada não foi estatisticamente
significante.
Quando a diferença encontrada não foi estatisticamente significante, é
interessante calcular que poder tem o teste realizado para detectá-la.
Quando da aplicação de um teste de hipótese, o erro estatístico pode
ser minimizado evitando-se amostras muito pequenas, comparações
demasiadas, muitos subgrupos e reduzindo-se a variabilidade dos mesmos
(C.V. ≤ 30%).
Para fins práticos, n > 100 pode ser considerada amostra grande. 30 ≤ n
≤ 100 é considerada amostra média. 10 ≤ n < 30 é considerada amostra
pequena e, n < 10 são amostras muito pequenas.
Para a aplicação de um teste de hipótese paramétrico quando a variável
é quantitativa (contínua), é importante considerar que para amostras em que n
< 30 , a população de onde a amostra foi obtida, com relação à variável de
interesse, deve ter distribuição normal. Quando não se sabe se a população
tem distribuição normal, pode-se testar a normalidade da amostra através do
teste de normalidade de Kolmogorov-Smirnov ou Shapiro-Wilk.
Para amostras em que n ≥ 30 não existe restrição com relação à
normalidade ou não da população, pois a distribuição amostral de médias é
normal ou tende para a normal, para n ≥ 30.
3.4 ESCOLHA DO TESTE ESTATÍSTICO
Dentre os inúmeros testes e técnicas estatísticas que se apresentam no
contexto de um trabalho de pesquisa, é natural um certo grau de desorientação
quanto à identificação daqueles que são ou não aplicáveis a cada situação. A
utilização correta de um teste de hipótese se baseia em cinco parâmetros que
orientam a decisão do pesquisador.
3.4.1 Natureza da Variável
A identificação das variáveis do estudo é o passo inicial para a escolha
do teste estatístico apropriado para a análise dos dados. As variáveis devem
ser inicialmente identificadas quanto ao tipo de escala: nominal, ordinal ou
quantitativa (discreta, intervalar ou escala de razão).
3.4.2 Distribuição de Probabilidade dos Grupos
Quando a variável apresenta escala ordinal ou quantitativa e o tamanho
da amostra em cada grupo é menor que 30, testes adicionais devem ser
aplicados para definir se a distribuição de probabilidade dos dados seguem o
padrão da distribuição normal (ou curva de Gauss) ou se a distribuição dos
dados é desconhecida ou diferente da distribuição normal.
3.4.3 Número de Grupos incluídos no Estudo
Inicialmente deve-se definir o número de grupos (um, dois ou mais
grupos) e o tamanho da amostra dentro de cada grupo, selecionado através de
técnicas de amostragem apropriadas.
3.4.4 Dependência ou Independência dos Grupos incluídos no Estudo
A forma de organização dos grupos também tem grande influência na
escolha do tipo de teste estatístico a ser aplicado. Essa organização é definida
quando do planejamento da pesquisa e pode dispor os grupos de três
maneiras: dependente (emparelhada), independente (não-emparelhada) ou
ambas (dependente e independente).
Considere em primeiro lugar, que um estudo tem como objetivo
identificar diferença entre dois grupos de pacientes em relação a uma
determinada doença. No caso em questão, um grupo tem a doença (caso),
enquanto o outro grupo não apresenta a doença (controle). Assim, os dois
grupos são considerados independentes (ou não-emparelhados) porque são
compostos de diferentes indivíduos.
Por outro lado, considere um estudo representado por um grupo de
pacientes que é avaliado duas vezes, antes e após a instituição de um
tratamento.
Nesse caso cada indivíduo é avaliado duas vezes, atuando como seu
próprio controle.
Nesse caso, obtêm-se dois grupos (antes e após a instituição do
tratamento), considerados dependentes (ou emparelhados) uma vez que são
compostos pelos mesmos indivíduos.
Finalmente, considere um estudo que tem como objetivo identificar
diferença entre dois grupos de pacientes em relação a uma determinada
doença, em dois momentos. No caso em questão, um grupo apresenta a
doença (caso), enquanto o outro grupo não apresenta a doença (controle).
Assim, os dois grupos são considerados independentes (ou não-
emparelhados) porque são compostos por diferentes indivíduos, enquanto que
dentro de cada grupo, em relação aos dois momentos as amostras são
dependentes (ou emparelhadas), uma vez que são compostas pelos mesmos
indivíduos em T1 e T2.
3.4.5 Tipo de Inferência Desejada
O objetivo principal de uma pesquisa científica é realizar inferências, a
partir de uma amostra, que possam ser extrapoladas para a população da qual
a amostra foi extraída. Tendo em vista o tipo de inferência desejada, o
planejamento da pesquisa é orientado segundo um ou mais objetivos:
a) comparar grupos;
b) verificar a associação entre variáveis;
c) medir a variabilidade na obtenção de dados.
A comparação entre grupos é utilizada quando se deseja avaliar se diferentes
tratamentos promovem efeitos diferenciados ou se a prevalência ou incidência
de uma determinada característica é a mesma em diferentes grupos ou em
diferentes momentos, ou qualquer outro tipo de análise comparativa.
Uma pesquisa para avaliar o grau de associação entre diferentes
variáveis é utilizada quando se deseja verificar a influência de uma variável
sobre a outra, ou até mesmo, estabelecer a relação de causa e efeito de uma
ou mais variáveis sobre a outra. O conhecimento de uma ou mais variáveis
contribui ou não para o conhecimento de outras variáveis do estudo, ou seja,
buscar na teoria se as variáveis são associadas ou independentes entre si.
Por outro lado, o pesquisador pode estar interessado em avaliar se
fatores externos influenciam a obtenção de dados. Desta forma, testes
estatísticos são empregados visando estabelecer a concordância nos valores
obtidos por diferentes examinadores, por avaliações distintas realizadas pelo
mesmo examinador, ou para comparar a concordância de diferentes métodos
ou critérios de avaliação. Incluem-se também nessa categoria os testes
empregados para determinação da acuidade de métodos de diagnóstico.
3.5 TESTE DE COMPARAÇÃO ENTRE GRUPOS
A seguir serão apresentados os testes de hipóteses para comparação
entre grupos a partir de variáveis qualitativas.
3.5.1 Variáveis Qualitativas
Ao se comparar grupos que são medidos numa escala nominal
categórica (dicotômica ou politômica), tem-se as seguintes opções de aplicação
de testes estatísticos, conforme quadro 6.
O Teste de Qui-Quadrado é o teste mais empregado para a
comparação de dados em escala nominal categórica (dicotômica ou
politômica), representado por χ2. Como os dados para o teste são definidos em
categorias e pela freqüência com que ocorrem, não podem ser utilizados dados
quantitativos. O teste de χ2 pode ser utilizado tanto para testar diferença entre
duas proporções, quanto para avaliar a independência entre duas variáveis
categóricas.
A hipótese a ser comprovada é a de que os dois grupos diferem em
relação à determinada característica e, consequentemente, com respeito à
freqüência relativa com que os componentes dos grupos se enquadram nas
diversas categorias.
Para a realização do teste, os indivíduos de uma amostra são estudados
segundo duas variáveis qualitativas e os dados são organizados em uma
tabela de contingência C x L, na qual as colunas e as linhas representam as
categorias das duas variáveis em análise, conforme quadro 7.
Vários procedimentos de pesquisa dão origem às freqüências
apresentadas no quadro 7: ensaios clínicos, estudos prospectivos, estudos
retrospectivos e estudos transversais.
Para a realização de um ensaio clínico controlado, o pesquisador deve
definir uma amostra de n pacientes, ao acaso, em dois ou mais grupos: cada
grupo recebe certo tratamento. Se o tratamento de cada paciente tem apenas
duas possibilidades de resultado, como sucesso e fracasso e dois grupos
experimentais, os dados do experimento devem ser apresentados em uma
tabela 2 x 2.
A incidência pode ser definida como sendo a freqüência (número) de
transições de saudável para doente, de não-acidentado para acidentado ou de
vivo para morto em um estudo populacional durante um determinado período
de tempo.
O risco relativo, ou razão de incidências, expressa o quociente entre o
risco de adoecer em um grupo exposto a um fator qualquer e o risco
correspondente em um grupo não-exposto ao mesmo fator.
O risco atribuível, ou diferença de incidência, resulta da diferença entre
dois indicadores de ocorrência, informando o excesso, ou resíduo, de um sobre
o outro. Avalia quanto da incidência na população em estudo pode ser
imputado ao efeito do suposto fator de risco. É dado pela diferença entre o
risco no total da população e o risco no grupo não-exposto.
No estudo retrospectivo, o pesquisador necessita de um grupo de
pessoas com determinada doença e um grupo comparável de pessoas sem
essa doença.
O pesquisador calcula a proporção de pessoas com a característica
suspeita em cada grupo, visando identificar se foram ou não expostas a
determinado fator. Existe a suspeita de que o câncer de pulmão ocorra mais
em pessoas fumantes. Se o pesquisador não tem condições em função de
tempo e recursos de acompanhar um grupo de fumantes e não-fumantes até
que alguns deles desenvolvam a doença (estudo prospectivo), pode tomar um
grupo de pessoas com a doença e outro grupo comparável, de pessoas sem a
doença (estudo de caso-controle), para obter o número de fumantes e não-
fumantes em cada grupo. Assim sendo, os efeitos das variáveis intervenientes
– como sexo, idade, nível socioeconômico – ficam controlados.
Com base nesse estudo, o pesquisador pode comparar a probabilidade
de uma pessoa ser fumante dado que têm a doença, com a probabilidade de
uma pessoa ser fumante, dado que não têm a doença. Essas probabilidades
podem ser iguais (hipótese da nulidade) ou diferentes (hipótese alternativa),
sendo possível a obtenção de estatísticas como odds ratio, além da aplicação
do teste de Qui-Quadrado e Mantel-Haenszel.
O odds ratio, ou razão de produtos cruzados, é dado pelo quociente
entre a chance de exposição no grupo doente pela chance de exposição no
grupo não-doente.
Nos estudos transversais, o pesquisador obtém uma amostra
representativa de uma população e classifica cada indivíduo amostrado
segundo variáveis de interesse. Com base no exemplo anterior, se o
pesquisador considera as variáveis: ser ou não ser fumante e apresentar ou
não câncer de pulmão, e classifica cada uma segundo a presença ou não da
doença e o fato de ser ou não fumante.
Os dados obtidos permitirão verificar se o fato de a pessoa ter a doença
está associado ao fato de ser fumante. Assim sendo, o pesquisador pode testar
a hipótese de que o aparecimento da doença está associado ao fato da pessoa
ser fumante; ou de que o aparecimento da doença não depende de a pessoa
ser fumante. Nesse tipo de estudo, é possível a obtenção de estatísticas como
prevalência, razão de prevalência, além da aplicação de testes de diferença de
proporções e o teste de Qui-Quadrado.
A prevalência é o número de pessoas, em uma determinada população,
que tem uma doença específica ou condição em um ponto do tempo.
Em tabelas de contingência, devemos observar as seguintes condições:
a) tabela 2 x 2: O tamanho da amostra deve ser maior que 20. Se a amostra for
menor que 40, nenhum valor esperado pode ser menor do que 5. Além disso,
deve-se utilizar a correção de continuidade de Yates no cálculo do χ2 , gerando
assim um resultado mais conservador, ou seja, um teste com menor
probabilidade de rejeitar a hipótese nula. Se existir células com valor esperado
menor do que 5, utilizar o Teste Exato de Fisher; b) quando n < 20, utilizar o
Teste Exato de Fisher; c) tabelas 2 x L: o χ2 pode ser calculado se todos os
valores esperados forem maiores do que 1 e se o número de células com
freqüência inferior a 5 é de no máximo 20% do total de células; d) tabelas C x
L: o teste χ2 é um procedimento seguro se o número esperado médio for maior
ou igual a 6, para testes com nível de significância de 5% e 10% ou maior do
que 6 para testes com nível de significância de 1%. O número médio esperado
pode ser obtido dividindo-se o total de indivíduos da amostra pelo número de
celas.
O Teste de Mantel-Haenszel se aplica a dados categóricos, em
situações como a do teste de Qui-Quadrado. Contudo, em alguns casos, pode
existir alguma variável independente associada à variável dependente (fator
discriminante), que esteja também exercendo influência sobre a variável
independente (fator discriminado). Dessa forma, poderia ser desejável entender
o efeito isolado da variável dependente sobre a independente, isto é, eliminar o
efeito não desejado da variável independente interveniente (de confundimento)
associada à variável dependente. O teste consiste no cálculo do quociente
entre a soma das freqüências observadas e esperadas que relacionam
positivamente a variável dependente e a variável independente, para todas as
possíveis condições da variável independente interveniente e a soma das
variâncias para todas as possíveis condições da variável independente
interveniente.
O Teste Exato de Fisher é empregado para comparar dados
categorizados em tabelas 2 x 2 quando o número total de casos é menor que
20 e existem células cujo valor esperado é menor do que 5.
O Teste de Igualdade de Duas Proporções é um teste equivalente ao
teste de χ2, para tabelas 2 x 2, com a diferença de que as freqüências absolutas
são convertidas em proporções. Para tanto, as amostras devem ser
relativamente grandes e as freqüências esperadas maiores que 5.
O coeficiente de Contingência (C) é uma medida da associação ou
relação entre dois conjuntos de atributos. É indicado quando tem-se apenas
informações categóricas (escala nominal) sobre os dois conjuntos de atributos.
Os dados podem consistir de qualquer número de categorias, isto é, pode-se
calcular um coeficiente de contingência com base em uma tabela de
contingência C x L. Para testar a hipótese de associação, compara-se os
valores observados com os valores esperados caso a hipótese nula seja
verdadeira. Quanto maior a discrepância entre esses valores esperados
(teóricos) e os valores observados nas células, maior o grau de associação
entre as duas variáveis e, assim, maior o valor de C.
Para qualquer tabela de contingência C x L pode-se determinar a
significância do grau de associação determinando a probabilidade de
ocorrência, sob H0, de valores tão grandes quanto o valor observado de χ2. Se
essa probabilidade não supera α , pode-se rejeitar a hipótese de nulidade,
àquele nível.
Se o valor de χ2 obtido com base na amostra é estatisticamente
significante, pode-se concluir que, na população, a associação entre os dois
conjuntos é estatisticamente diferente de zero.
A variação do coeficiente de contingência C não segue o mesmo padrão
do coeficiente de correlação linear de Pearson, uma vez que seu valor varia
entre zero e um limite superior menor do que um, dependendo do número de
categorias. Seu cálculo somente deve ser realizado se os pressupostos para a
aplicação do teste de χ2 forem satisfeitos. É importante ressaltar que a
comparação de dois coeficientes de contingência só é possível quando forem
obtidos a partir de tabelas de contingência com o mesmo número de
categorias.
O Coeficiente ψ (fi) é uma medida muito utilizada pelos pesquisadores
visando estimar o grau de associação entre duas variáveis categóricas
nominais (dicotômicas ou politômicas), uma vez que o teste de χ2 serve apenas
para verificar a significância da associação, mas não para medir o grau de
associação entre as duas variáveis. Se o coeficiente ψ = 0, indica que a
associação é nula. Quanto mais próximo de 1, maior será o grau de associação
entre as variáveis. Da mesma forma que o coeficiente de correlação de
Pearson, se 0 < ψ < 0,30, existe fraca associação. Se 0,30 ≤ ψ < 0,60, existe
associação regular. Se 0,60 ≤ ψ < 0,90, existe associação forte. Finalmente, se
0,90 ≤ ψ < 1, existe associação muito forte.
O Coeficiente V de Cramér, assim como o coeficiente de contingência
C, é uma medida de associação entre duas variáveis categóricas nominais
(dicotômicas ou politômicas). Se o coeficiente V = 0, indica que a associação é
nula. Quanto mais próximo de 1, maior será o grau de associação entre as
variáveis.
O Teste das Significâncias das Mudanças de Mc-Nemar é indicado
para duas variáveis categóricas dicotômicas (Presença e Ausência) com o
objetivo de avaliar diferenças na freqüência de discordância entre os pares de
dados, para amostras em que n ≥ 25. É um teste adequado para experimentos
do tipo antes e depois (amostras emparelhadas), em que cada indivíduo é
utilizado como seu próprio controle, visando detectar as mudanças de uma
categoria para a outra. O teste deve ser aplicado desde que as freqüências
esperadas sejam pelo menos igual a 5. Para comprovar a significância de
qualquer mudança observada, constrói-se uma tabela de freqüências de dupla
entrada (quatro casas) para representar o primeiro e o segundo conjunto de
reações das mesmas unidades observacionais.
O Teste dos Sinais é empregado na comparação dos resultados de
amostras emparelhadas de dados nominais categóricos dicotômicos, baseados
na distribuição binomial, para amostras em que n < 25 O teste converte a
diferença em cada par selecionado nos sinais de mais (+) ou de menos (–).
Quando um par não acusa diferença (sem sinal), o mesmo é desprezado na
análise, reduzindo-se, assim, o tamanho da amostra n. Se a hipótese nula é
verdadeira, espera-se encontrar uma ocorrência de aproximadamente 50% de
sinais positivos e 50% de sinais negativos.
O Teste Q de Cochran é indicado para se testar a hipótese de que três
ou mais condições experimentais têm o mesmo efeito sobre os elementos que
compõem a amostra. As variáveis dependentes são dicotômicas e devem ser
medidas sobre os mesmos indivíduos (amostras emparelhadas) ou quando o
pesquisador conseguir emparelhar indivíduos semelhantes em relação a uma
série de variáveis (sexo, idade, altura, peso, hábitos, etc.). O teste consiste em
avaliar se a proporção ou freqüência de resposta de determinado tipo é a
mesma para cada condição experimental, excetuadas as diferenças devidas ao
acaso. Se Ho é rejeitada, as comparações duas a duas podem ser feitas
utilizando o teste das significâncias das mudanças de Mc-Nemar.
3.5.2 Variáveis Quantitativas ou Ordinais
A comparação de grupos relacionados a variáveis quantitativas ou
ordinais é realizada utilizando testes estatísticos diferentes das variáveis
qualitativas. A identificação de uma variável medida numa escala numérica não
é suficiente para se definir o tipo de teste indicado para a comparação dos
grupos. É necessário verificar quando n < 30 se a distribuição dos dados para
cada grupo segue a distribuição normal (paramétrica) ou se a distribuição dos
dados é desconhecida ou diferente da distribuição normal.
Uma forma de se testar o padrão de distribuição dos dados é utilizando
os testes de normalidade de Kolmogorov-Smirnov ou Shapiro-Wilk.
O Teste de Kolmogorov-Smirnov compara a distribuição de freqüência
real acumulada dos dados da amostra com uma distribuição normal acumulada
gerada a partir da média e do desvio padrão supostamente conhecidos
(populacionais). Esta comparação é efetuada com base na maior diferença
entre as freqüências observadas acumuladas e as freqüências esperadas
acumuladas dessas duas curvas.
O teste de Kolmogorov-Smirnov quando efetuado sob a suposição de
que os parâmetros populacionais da normal são desconhecidos, e utiliza a
estimativa da média e desvio padrão a partir da amostra, é denominado de
teste de Kolmogorov-Smirnov com a correção de Lilliefors. É mais poderoso
que o teste qui-quadrado para a bondade do ajustamento, uma vez que pode
ser aplicado para pequenas amostras.
O Teste de Shapiro-Wilk compara a distribuição de freqüência real dos
dados da amostra com uma distribuição normal gerada a partir do cálculo da
média e do desvio padrão obtidos a partir da amostra, utilizando assim a
variante de Lilliefors do teste de Kolmogorov-Smirnov. É um teste mais
conservador do que o teste de Kolmogorov-Smirnov.
Admitindo que a distribuição dos dados seja normal ou
aproximadamente normal, quando n < 30, são indicados os testes paramétricos
para comparação entre grupos. O quadro 8 apresenta os principais testes
utilizados para variáveis quantitativas ou ordinais, que seguem a distribuição
normal ou quando n ≥ 30 para cada grupo.
O Teste t de Student se baseia num tipo de distribuição de dados
semelhante à distribuição normal, conhecida como distribuição t de Student. É
uma distribuição simétrica, porém mais platicúrtica, recomendada para
pequenas amostras (n < 30).
O teste t de Student pode ser utilizado para verificar se uma única
amostra provém ou não de uma população cuja média é conhecida.
Normalmente é empregado para testar a hipótese nula de que as médias de
duas amostras são iguais. Nesse tipo de teste, a primeira questão é observar o
tipo de experimento envolvido, ou seja, se as amostras são dependentes
(emparelhadas) ou independentes (não-emparelhadas).
O Teste t de Student para grupos Independentes utiliza para o seu
cálculo a diferença entre as duas médias, o desvio padrão dos grupos, o
tamanho de cada amostra e o erro padrão das diferenças das médias entre os
dois grupos.
Considerando a hipótese nula de que não há diferença entre as médias
dos grupos, após a obtenção de t calculado e a definição do nível de
significância α desejado, compara-se o valor de t calculado com o valor de t
tabelado. Se o valor de t calculado for maior que o valor crítico fornecido pela
tabela, rejeita-se a hipótese nula de igualdade de médias entre os grupos,
evidenciando diferença estatisticamente significante entre as médias dos
grupos.
O teste t para grupos independentes somente deve ser aplicado quando
a distribuição dos dados for normal ou a amostra de ambos os grupos for maior
ou igual a 30.
Quando as variâncias das amostras não forem homogêneas, uma
modificação do teste t de Student, denominada correção para graus de
liberdade de Aspin-Welch deve ser aplicada. Para avaliar se os grupos
apresentam variâncias homogêneas pode ser utilizado o Teste de
Homogeneidade de Variâncias de Levene.
O Teste de Homogeneidade de Variâncias de Levene compara se os
grupos analisados possuem variabilidades semelhantes ou diferentes. Quando
as variâncias são homogêneas, as populações são chamadas de
homocedásticas, enquanto que no segundo caso as populações são chamadas
heterocedásticas.
O valor do quociente entre a maior e a menor variância amostral fornece
a estatística F de Snedecor. Evidentemente, se as variabilidades amostrais
forem próximas, o valor de F torna-se mínimo e igual a um, conduzindo a
aceitação da hipótese nula e consequentemente da homocedasticidade das
populações.
O Teste t de Student para grupos dependentes é aplicado para
comparação das médias de dois grupos emparelhados que utiliza para o seu
cálculo a média das diferenças entre cada um dos pares formados pelas duas
amostras, o desvio padrão das diferenças, o erro padrão das diferenças e o
tamanho da amostra das diferenças. Considerando a hipótese nula de que a
diferença média entre os dois grupos é zero, após a obtenção de t calculado e
a definição do nível de significância α desejado, compara-se o valor de t
calculado com o valor de t tabelado. Se o valor de t calculado for maior que o
valor crítico fornecido pela tabela, rejeita-se a hipótese nula de igualdade de
médias entre os grupos, evidenciando diferença estatisticamente significante
entre as médias dos grupos.
O teste t para grupos dependentes somente deve ser aplicado quando a
distribuição das diferenças dos dados for normal ou a amostra de ambos os
grupos for maior ou igual a 30.
A Análise de Variância – ANOVA, a um ou mais critérios de
classificação, é a estatística indicada para a comparação de três ou mais
grupos de dados com escala pelo menos intervalar com distribuição normal ou
aproximadamente normal.
Constitui-se de um conjunto de técnicas estatísticas para descobrir
"fatores" que produzem mudanças sistemáticas em alguma variável de
interesse. Os fatores propostos são atributos ou variáveis qualitativas,
enquanto que a variável dependente é quantitativa e é observada dentro das
classes dos fatores visando analisar se difere de forma significativa.
Trata-se de uma generalização do teste para a diferença entre duas
médias (teste t de Student), para o caso de compararmos simultaneamente K
médias (K > 2), supondo que as mesmas foram calculadas sobre amostras
aleatórias extraídas da população.
O problema está em concluir se algum, ou alguns desses K grupos são
estatisticamente diferentes uns dos outros. Poderiam ser comparados os
grupos, dois a dois, por meio do teste t de Student, o que poderia revelar uma
diferença significante entre quaisquer dois grupos. Porém, proceder dessa
forma seria incorrer num erro do tipo I, pois ao aceitar 5% de erro, a
comparação de 4 grupos envolve a aplicação do teste t de Student seis vezes
separadamente, incorrendo numa chance de 30% (6 x 5%) de encontrar, por
mero acaso, uma diferença estatisticamente significante.
Existem dois modelos de análise de variância: o de um critério, em que
há apenas uma variável independente (ou fator), e o de dois ou mais critérios,
com ou sem interação, em que há duas ou mais variáveis independentes (ou
fatores).
O termo um critério indica que os dados foram avaliados segundo uma
variável independente, como por exemplo, a dureza de uma restauração é
medida segundo três materiais (resina híbrida, ionômero fotoativo e ionômero
ativo). Como existe um fator de variação, material (com três níveis), uma
questão pode ser formulada: 1) há diferença nos valores médios da resistência
entre os três materiais, mantido todos os demais fatores constantes?
O termo dois critérios indica que os dados foram avaliados segundo
duas variáveis independentes, como por exemplo, a dureza de uma
restauração é medida segundo três materiais (resina híbrida, ionômero
fotoativo e ionômero ativo) e três formas de irradiação (sem irradiação,
irradiado com 30 Gy e irradiado com 50 Gy).
Como existem dois fatores de variação, materiais (com três níveis) e
irradiação (com três níveis), três questões podem ser formuladas: 1) há
diferença entre os três materiais, independente da forma de irradiação?, 2) há
diferença entre as três formas de irradiação, independente do tipo de material?,
e; 3) há interação entre tipo de material e forma de irradiação?. O segundo
caso, quando todos os materiais estão na presença de todas as formas de
irradiação, envolve o modelo de ANOVA a dois critérios, modelo fatorial
completo.
Para a aplicação do modelo de análise de variância, os dados das
amostras devem cumprir três pré-requisitos básicos:
a) os dados devem apresentar distribuição normal dentro de cada grupo
quando n < 30;
b) os dados devem apresentar homogeneidade de variâncias entre os grupos;
c) os dados de cada grupo devem ser aleatórios e independentes, ou seja,
cada observação individual não deve ter qualquer relação com outra
observação do grupo.
No entanto, nem todos os pré-requisitos têm igual importância. Na
verdade, os resultados do teste são pouco afetados quando há desvios
moderados em relação à distribuição normal, especialmente quando o tamanho
da cada grupo for de pelo menos n ≥ 30. Por outro lado, o teste não-
paramétrico de Kruskal-Wallis, correspondente à análise de variância a um
critério, é indicado quando os dados apresentam uma distribuição com
assimetria forte, principalmente quando o tamanho da amostra for menor que
30.
Os requisitos de homogeneidade das variâncias entre os grupos e
independência das observações são de particular importância. Para o controle
desses problemas recomenda-se que o tamanho da amostra seja igual ou
semelhante dentro de cada grupo e que se evite estudos envolvendo medidas
repetidas na mesma unidade observacional, a menos que o pesquisador saiba
que a ocorrência de um valor independe da ocorrência de qualquer outro valor.
Quando os grupos apresentarem variâncias heterogêneas e o teste da
ANOVA indicar diferenças entre os grupos, recomenda-se para identificar quais
grupos diferem entre si, a utilização de um teste de comparações múltiplas
paramétricas admitindo variâncias heterogêneas, como por exemplo, o teste de
comparações múltiplas paramétricas de Games-Howell ou o teste de Dunnett´s
T3.
A comparação dos grupos pelo método da ANOVA é feita aplicando-se a
estatística F de Snedecor, através do estudo das causas de variação. Essas
causas provêm basicamente de duas fontes. A primeira causa de variação é
devida ao fato dos tratamentos aplicados a cada grupo serem diferentes, ou
seja, relacionada à diferença das médias dos grupos. A Segunda causa é
devida ao acaso (variabilidade residual), como resultado das diferenças no
interior de cada grupo.
A aplicação da estatística F de Snedecor visando não rejeitar a hipótese
nula de igualdade entre as médias dos grupos consiste em mostrar que a
variância de cada grupo é semelhante à variância entre os grupos. Essa
análise fornece um valor de F. Quanto maior for esse valor, maior será a
variação entre os grupos em relação à variação dentro de cada grupo e,
portanto, maior a probabilidade de se rejeitar a hipótese de igualdade entre os
grupos.
A partir dos dados do experimento, a valor calculado da estatística F é
comparado com o valor tabelado. Para tanto, é necessário definir o nível de
significância α e calcular o número de graus de liberdade do teste.
Considerando a hipótese nula de que não há diferença entre as médias dos
grupos, após a obtenção de F calculado e a definição do nível de significância
α desejado, compara-se o valor de F calculado com o valor de F tabelado. Se o
valor de F calculado for maior que o valor crítico fornecido pela tabela, rejeita-
se a hipótese nula de igualdade de médias entre os grupos, evidenciando
diferença estatisticamente significante entre as médias dos grupos.
A análise de variância serve para verificar se existe diferença
significativa entre pelo menos dois grupos. Porém, se houver diferenças, não
se sabe, através dela, quais grupos diferem entre si. A identificação de
diferenças entre médias, tomando-as duas a duas, deve ser feita usando um
dos vários testes de comparações múltiplas entre médias existentes na
literatura. Estes testes são semelhantes ao teste t de Student, com a diferença
de que controlam o nível de significância α ao levar em conta o número de
comparações feitas no experimento. Além disso, nesta técnica estatística, a
variância dentro dos grupos é estimada usando o quadrado médio do resíduo,
do quadro da ANOVA, que é baseado em todas as amostras, enquanto em um
teste t a variância dentro dos grupos é estimada com base em duas amostras
apenas.
Vários procedimentos têm sido propostos para prosseguir na análise dos
dados, admitindo variâncias homogêneas e heterogêneas entre os grupos, e
diferem entre si quanto à maior ou menor capacidade de reduzir erros do tipo I
ou do tipo II.
Serão descritos a seguir, cinco dos mais usados (Tukey HSD, SNK,
Bonferroni, Scheffé e Dunnett), os quais analisam todas as comparações
possíveis, admitindo variâncias homogêneas entre os grupos e o teste de
comparações múltiplas paramétricas de Games-Howell, o qual analisa todas as
comparações possíveis, admitindo variâncias heterogêneas entre os
grupos.Tais procedimentos podem ser usados na condição de que o resultado
do teste F do quadro da ANOVA seja estatisticamente significante.
O Teste de Tukey HSD (Honestly Significant Difference) é empregado
para se determinarem as diferenças significantes entre as médias de todos os
grupos analisados no teste ANOVA, tomadas duas a duas, quando existir
homogeneidade de variâncias entre os grupos. O método de Tukey HSD
protege os testes de um aumento no nível de significância α devido ao grande
número de comparações efetuadas. Inicialmente, ordenam-se as médias da
maior à menor. Se uma diferença entre duas médias não é significativa, não há
razão para existir diferença entre as médias compreendidas entre essas duas.
Assim sendo, as diferenças englobadas por uma diferença estatisticamente
não significante não devem ser testadas. É fornecido um valor crítico e a
diferença entre as médias dos grupos comparados é considerada significante
quando exceder esse valor crítico.
O Teste de Student-Newman-Keuls (SNK) é empregado com o mesmo
objetivo que o teste de Tukey HSD, com exceção de que o valor crítico
depende não do número K de tratamentos envolvidos no experimento, mas do
número K* de médias incluídas na amplitude de médias que está sendo
testada. Deve ser utilizado quando existir homogeneidade de variâncias entre
os grupos. Baseia-se na ordenação das médias e no estabelecimento do
número de graus de liberdade que separam as médias entre si. Se o valor
calculado da estatística do teste for maior do que o valor tabelado, rejeita-se a
hipótese nula de igualdade entre as médias dos dois grupos comparados.
O Teste de Bonferroni baseia-se na estatística t de Student, admitindo
existir homogeneidade de variâncias entre os grupos. Consiste em corrigir o
nível de significância α , devido ao fato de múltiplas comparações estarem
sendo realizadas, o que aumenta a possibilidade de erro tipo I (encontrar
diferença significante devido ao acaso). É necessário que a escolha das
comparações – se não forem todas – seja feita a priori e não após a inspeção
dos resultados. O procedimento consiste em calcular uma diferença entre
médias denominada t de Bonferroni. Se o valor calculado t Bonf for maior do
que o valor tabelado, rejeita-se a hipótese nula de igualdade das médias entre
os dois grupos comparados.
O Teste de Scheffé avalia todas as combinações possíveis entre os
grupos e não apenas comparações aos pares, admitindo existir
homogeneidade de variâncias entre os grupos. É especialmente útil no caso
dos contrastes múltiplos, quando se quer comparar um grupo de tratamentos
com outro, por exemplo, G2 + G3 contra G1. É considerado um método
conservador pois, quando compara os grupos aos pares requer diferenças
maiores entre as médias para estabelecer significância estatística. O
procedimento consiste em calcular o módulo da diferença entre médias. Se o
valor calculado for maior do que o valor tabelado, rejeita-se a hipótese nula de
igualdade das médias entre os dois grupos comparados.
O Teste de Dunnett é empregado quando se deseja comparar vários
tratamentos com um grupo controle, não sendo possível a comparação dos
tratamentos entre si. É recomendado quando existir homogeneidade de
variâncias entre os tratamentos e o grupo controle.
O Teste de Games-Howell é empregado para se determinarem as
diferenças estatisticamente significantes entre as médias de todos os grupos
analisados no teste ANOVA, tomadas duas a duas, quando não existir
homogeneidade de variâncias entre os grupos. É fornecido um valor crítico e a
diferença entre as médias dos grupos comparados é considerada significante
quando exceder esse valor crítico.
A Análise de Covariância – ANCOVA, a um ou mais critérios de
classificação, é a estatística indicada para a comparação de três ou mais
grupos de dados numéricos com distribuição normal ou aproximadamente
normal. Constitui-se de um conjunto de técnicas estatísticas para descobrir
"fatores" que produzem mudanças sistemáticas em alguma variável de
interesse. Enquanto na ANOVA os fatores propostos são variáveis qualitativas,
na ANCOVA os fatores propostos podem ser variáveis quantitativas ou
atributos (qualitativas), enquanto que a variável dependente é quantitativa e é
observada dentro das classes dos fatores visando analisar se difere de forma
significativa. O procedimento da ANCOVA ajusta a variável dependente com
base na variável ou nas variáveis contínuas independentes, realizando assim
uma ANOVA a dois ou mais critérios sobre a variável dependente ajustada. O
procedimento ANCOVA remove o efeito da variável ou das variáveis
independentes contínuas da análise do efeito das variáveis categóricas sobre a
variável dependente. O controle para a variável contínua independente significa
que artificialmente todos os grupos estudados serão iguais com relação à
variável ou variáveis contínuas independentes, eliminando assim o efeito das
variáveis intervenientes.
Existem situações em que um estudo é feito visando não somente
comparar grupos entre si, mas também avaliar o efeito de uma ou mais
variáveis sobre outra ou mesmo para se predizer o valor de uma característica
em função de uma ou mais variáveis. Testes estatísticos apropriados são
empregados para se determinar se esse relacionamento entre variáveis é
estatisticamente significante ou não, considerando o tipo de escala das
variáveis envolvidas: nominal, ordinal ou contínua.
O Coeficiente de Correlação Linear de Pearson (r). é uma medida de
associação linear e varia de -1 ≤ r ≤ +1. Descreve a associação entre duas
variáveis, não fazendo julgamento sobre se uma é causa ou conseqüência da
outra. Para se explicar a influência de uma variável sobre a outra, um outro
valor denominado Coeficiente de Determinação (r2), correspondente ao valor
de r elevado ao quadrado, é normalmente utilizado. O coeficiente de correlação
linear de Pearson independente das unidades de medidas das variáveis X e Y.
Trata-se de um número desprovido de unidade de medida (adimensional). Se
for igual a zero indica que não há associação linear entre as duas variáveis
envolvidas. Quando r = -1, tem-se correlação linear negativa perfeita, enquanto
que para r = 1, a correlação linear é positiva e perfeita. Para r = 0, não existe
correlação linear entre as variáveis, podendo existir associação de outro tipo.
Se 0 < |r| < 0,30, existe fraca correlação linear. Se 0,30 ≤ |r| < 0,60, existe
correlação linear regular. Se 0,60 ≤ |r| < 0,90, existe correlação linear forte.
Finalmente, se 0,90 ≤ |r| < 1, existe correlação linear muito forte. Um valor de r
= 0,90 apresenta um coeficiente de determinação r2 = 0,81, o que significa que
as variações da variável independente X explicam 81% das variações da
variável dependente Y, restando 19% para outras variáveis não incluídas no
modelo.
O sinal do coeficiente de correlação de Pearson indica se as variáveis
caminham no mesmo sentido (correlação positiva), ou em sentidos opostos
(correlação negativa).
Quando calcula-se o coeficiente de correlação linear r, obtém-se a
estimativa do coeficiente de correlação populacional ρ , a partir de uma
amostra de tamanho n.
Dessa forma é possível através de um teste de hipótese, utilizando o
valor de r, concluir se a correlação linear entre as variáveis X e Y é
estatisticamente diferente de zero.
A Análise de Regressão, ao contrário do coeficiente de correlação, que
indica apenas o grau de associação entre duas variáveis, é uma técnica
estatística utilizada para investigar e modelar o relacionamento funcional entre
as diversas variáveis de um processo. O objetivo principal da análise de
regressão é predizer o valor de uma variável (a variável resposta ou
dependente), dado que seja conhecido o valor de uma ou mais variáveis
associadas (as variáveis independentes ou explicativas).
A Regressão Simples envolve a predição da variável dependente com
base em apenas uma variável independente, enquanto a Regressão Múltipla
diz respeito à predição da variável dependente em função de duas ou mais
variáveis independentes.
Basicamente, um problema de regressão envolve variáveis que podem
ser controladas, expressas no modelo de regressão pelas variáveis
independentes, e variáveis que não podem ser controladas (variação aleatória),
expressas no modelo pelo erro.
A Regressão Logística Binária é uma técnica estatística utilizada para
investigar e modelar o relacionamento funcional entre uma variável dependente
(nominal binária), dado que seja conhecido o valor de uma ou mais variáveis
associadas (as variáveis independentes ou explicativas, nominais ou
contínuas).
A Regressão Logística Multinomial é uma técnica estatística utilizada
para investigar e modelar o relacionamento funcional entre uma variável
dependente (nominal politômica), dado que seja conhecido o valor de uma ou
mais variáveis associadas (as variáveis independentes ou explicativas,
nominais ou contínuas).
Basicamente, um problema de regressão envolve variáveis que podem
ser controladas, expressas no modelo de regressão pelas variáveis
independentes, e variáveis que não podem ser controladas (variação aleatória),
expressas no modelo pelo erro.
Em todos os casos em que os requisitos prévios para aplicação de
testes paramétricos não forem satisfeitos pode-se optar pela utilização de um
teste nãoparamétrico equivalente.
Os testes não-paramétricos são comumente empregados para dados
ordinais, uma vez que na grande maioria das vezes não apresentam
distribuição normal. Além do não cumprimento do requisito de normalidade, a
seleção do teste não-paramétrico adequado se baseia no número de grupos a
serem comparados e na presença ou ausência de independência dos grupos.
O quadro 9 a seguir apresenta os testes não-paramétricos para comparações
de grupos para variáveis quantitativas ou ordinais, que não apresentam
distribuição normal.
A estatística não-paramétrica se baseia na conversão dos dados
originais da amostra em postos (ranks) ou sinais positivos e negativos. Um
posto é considerado como sendo a posição de um determinado dado quando
todos os valores que compõem a amostra estão ordenados de forma
crescente. O princípio da comparação entre grupos a partir de postos baseia-se
na idéia de que se as amostras a serem comparadas são iguais, a ordenação
de todos os dados tende a misturá-los de maneira que a média dos postos
tende a ser igual em todos os grupos. Porém, ao contrário, se à medida em que
os valores ordenados das amostras separam os dados de cada grupo, a
probabilidade de igualdade entre as médias dos postos em cada grupo se torna
pequena.
O Teste U de Mann-Whitney serve para testar a hipótese de que os
dois grupos em comparação têm a mesma distribuição de probabilidades. É
indicado para a comparação de dois grupos independentes (não-
emparelhados) cujos requisitos para aplicação do teste t de Student para
amostras independentes não foram atendidos, ou porque os dados dos dois
grupos não apresentam distribuição normal ou quando a mensuração atingida
é inferior à da escala de intervalos. O valor de U calculado avalia o grau de
entrelaçamento dos dados dos dois grupos após a ordenação, do menor para o
maior, sem levar em consideração se as observações são oriundas do primeiro
grupo ou do segundo grupo. Em seguida, as n1 e n2 observações dos grupos 1
e 2 são identificadas e a soma dos postos dos dois grupos é calculada.
Para testar a diferença entre as somas dos postos, calcula-se a
estatística U1 e U2. Chama-se de U observado o menor dos valores obtidos
para U1 e U2, o qual deve ser comparado com o U crítico, obtido em tabela
específica, a partir do tamanho da amostra e do nível de significância α. Quanto
maior a diferença entre a soma dos postos U1 e U2 maior será a probabilidade
de que as amostras sejam desiguais, rejeitando-se a hipótese de igualdade das
duas populações.
O Teste de Wilcoxon é indicado para comparação de dois grupos
dependentes (emparelhados). É usado na mesma situação que o teste t para
amostras emparelhadas, quando os pressupostos para a aplicação do teste t
de Student para amostras emparelhadas não são satisfeitos. O teste pressupõe
que a variável dependente seja medida, para cada tratamento, pelo menos, em
escala ordinal. O processo consiste em calcular os valores numéricos da
diferença entre cada par, podendo ocorrer: acréscimo (+), decréscimo (-) ou
igualdade (=).Quando um par não acusa diferença (di = 0), o mesmo é
desprezado na análise, reduzindose, assim, o tamanho da amostra n, que será
dada pelo número de pares excluindo aqueles cuja diferença é nula.
Pode ocorrer ainda outro tipo de empate. Quando duas ou mais
diferenças apresentarem o mesmo valor. Neste caso cada posto será
representado pela média aritmética dos postos que teriam sido atribuídos se as
diferenças fossem diferentes.
Uma vez obtido o vetor de todas as diferenças para cada par de dados,
essas diferenças são ordenadas pelo seu valor absoluto (desprezando o sinal),
substituindo-se então os valores originais pelos postos que ocupam na escala
ordenada. Em seguida, a cada posto atribui-se o sinal da diferença, indicando
quais postos decorrem de diferenças negativas e quais postos decorem de
diferenças positivas. O teste da hipótese de que as medidas feitas no mesmo
par são iguais é baseado na soma dos postos das diferenças negativas e
positivas. Se a hipótese nula é verdadeira, a soma dos escores positivos e
escores negativos deve ser próxima de zero. Se, entretanto, a soma dos postos
positivos é muito diferente da soma dos postos negativos, o valor de p será
pequeno, e a hipótese nula será rejeitada, concluindo assim que o tratamento A
difere do tratamento B.
O Teste de Kruskal-Wallis é o equivalente não-paramétrico da ANOVA
a um critério, ou seja, serve para testar a hipótese de que vários grupos
independentes têm a mesma distribuição de probabilidades. É um teste para
comparação de três ou mais grupos independentes, quando os requisitos para
aplicação do teste de ANOVA não foram atendidos. A técnica comprova a
hipótese de nulidade de que k amostras provenham da mesma população ou
de populações idênticas com relação a médias.
O teste pressupõe que a variável dependente tenha distribuição
contínua, e exige mensuração, pelo menos, em escala ordinal. A aplicação do
teste utiliza os valores numéricos transformados em postos e agrupados num
só vetor de dados. Quando ocorrer empates entre as observações, deve-se
atribuir a cada uma delas o valor médio dos postos em que ocorreram os
empates. A comparação dos grupos é realizada utilizando a soma dos postos
de cada amostra.
O teste de Kruskal-Wallis é mais eficiente do que o teste da mediana
porque utiliza mais as informações contidas nas observações. Converte os
escores em postos, enquanto que a prova da mediana converte os escores
apenas em sinais “mais” e “menos”. Assim, a prova de Kruskal-Wallis preserva
a magnitude dos escores, sendo mais sensível para detectar diferenças entre
as K amostras de escores. É a prova não-paramétrica mais eficiente. Tem
poder-eficiência de 95,5% quando comparada com a ANOVA, quando os
pressupostos para aplicação da ANOVA foram atendidos.
Apesar do teste de Kruskal-Wallis ser indicado para apenas um fator de
variação, pode-se utilizá-lo também quando há mais de um fator de variação,
desde que se faça a combinação dos fatores e proceda a análise isolada de
cada uma das novas combinações, comparando os grupos gerados a partir das
combinações realizadas anteriormente. Uma vez que esse procedimento não
permite avaliar as significâncias das interações entre os fatores, tal análise
pode ser feita visualmente a partir da construção de gráficos envolvendo os
escores médios segundo os fatores. O teste de Kruskal-Wallis, da mesma
forma que a ANOVA, serve para verificar se existe diferença estatisticamente
significante entre os escores médios de pelo menos dois grupos. Porém, se
houver diferenças, não se sabe, através dele, quais grupos diferem entre si. A
identificação de diferenças entre escores médios, tomando-os dois a dois, deve
ser feita usando o teste de comparações múltiplas nãoparamétricas de Dunn.
Este teste é semelhante ao teste de Tukey-Kramer HSD, o qual analisa todas
as comparações possíveis, dois a dois, a partir dos postos médios de cada um
dos grupos. É fornecido um valor crítico tabelado, e a diferença entre os postos
médios dos grupos comparados é considerada significante quando exceder
esse valor crítico.
O Teste da Mediana serve para testar a hipótese de que dois ou mais
grupos independentes tenham provindo de populações com a mesma mediana.
O teste da mediana é útil quando existem grupos que apresentam dados
censurados (alguns dados ficam além dos limites estabelecidos pelo
procedimento definido no experimento). O teste pressupõe que a variável
dependente seja medida, pelo menos, em escala ordinal.
Para aplicar o teste da mediana, determina-se primeiro a mediana global
a partir dos escores de todos os grupos. Em seguida, os escores de cada
grupo são dicotomizados em dois conjuntos, obtendo-se o número de escores
acima e abaixo da mediana global. Se os grupos comparados provem de
populações com a mesma mediana, é de se esperar que cerca da metade dos
escores de cada grupo esteja acima da mediana global e cerca da metade
abaixo.
O Teste de Friedman é um teste não-paramétrico equivalente à ANOVA
com medidas repetidas, para comparação de três ou mais grupos dependentes
(emparelhados), quando o mesmo indivíduo é avaliado mais de duas vezes.
Serve para testar a hipótese de que três ou mais grupos relacionados têm,
todos, a mesma distribuição de probabilidades. Pressupõe que a variável
dependente seja medida, pelo menos, em escala ordinal. O teste não utiliza os
dados numéricos diretamente, mas sim os postos ocupados pelas unidades
observacionais, para cada um dos tratamentos. Após a obtenção dos postos
para cada linha, é testada a hipótese de igualdade das médias dos postos dos
grupos. O teste de Friedman, da mesma forma que o teste de Kruskal-Wallis,
serve para verificar se existe diferença estatisticamente significante entre as
médias dos postos de pelo menos dois tratamentos. Porém, se houver
diferenças, não se sabe, através dele, quais tratamentos diferem entre si. A
identificação de diferenças entre as médias dos postos, tomando-os dois a
dois, deve ser feita usando o teste de comparações múltiplas não-paramétricas
modificado por Dunn para o teste de Friedman. Este teste é semelhante ao
teste de Tukey HSD, o qual analisa todas as comparações possíveis, dois a
dois, a partir dos postos médios de cada um dos grupos. É fornecido um valor
crítico tabelado, e a diferença entre os postos médios dos grupos comparados
é considerada estatisticamente significante quando exceder esse valor crítico.
O Teste de Kendall W é indicado para se testar a hipótese de que as
várias condições experimentais têm o mesmo efeito sobre os elementos que
compõem a amostra. As variáveis dependentes são contínuas ou ordinais e
devem ser medidas sobre os mesmos indivíduos. Além da comparação entre
as diferentes condições experimentais, o teste fornece o coeficiente de
concordância de Kendall, cujo objetivo é avaliar o grau de associação entre os
diferentes tratamentos.
Quando se deseja avaliar a associação entre duas variáveis em que n <
30 e os dados de uma ou de ambas as variáveis não apresentam distribuição
normal e/ou as variáveis não são contínuas (ambas com escala ordinal ou uma
ordinal e outra contínua), existem outros coeficientes de correlação amostrais
não-paramétricos como o de Spearman (rs) e o de Kendall (rt).
O Coeficiente de Correlação de Spearman (rs) é uma medida do grau
de associação entre duas variáveis quando os dados observados apresentam
escala ordinal ou quando pelo menos uma das variáveis não apresenta
distribuição normal. Parte da obtenção da diferença entre cada par de postos.
Seu valor varia entre –1 e +1, sendo sua interpretação semelhante ao
coeficiente de correlação de Pearson. Outra medida de associação entre
variáveis ordinais semelhante ao coeficiente de correlação de Spearman, é o
Coeficiente de Correlação de Kendall (rt). A correlação por postos de
Spearman e kendall corresponde à versão não-paramétrica da correlação
linear de Pearson e apresenta cerca de 91% da eficiência do coeficiente de
correlação linear de Pearson quando as pressuposições para a aplicação do
mesmo são satisfeitas.
O Coeficiente γ (gama) mede o grau de associação entre duas variáveis
categóricas ordinais, organizadas em uma tabela de contingência. Como o
coeficiente γ varia entre –1 e +1, o resultado é interpretado da mesma forma
que o coeficiente de correlação de Pearson. Se o coeficiente γ = 0, indica que a
associação é nula. Quando |γ| = 1, tem-se associação positiva ou negativa
perfeita. Quanto mais próximo de 1, maior será o grau de associação entre as
variáveis. se 0 < |γ| < 0,30, existe fraca correlação linear. Se 0,30 ≤ |γ|< 0,60,
existe correlação linear regular. Se 0,60 ≤ |γ| < 0,90, existe correlação linear
forte. Finalmente, se 0,90 ≤ |γ| < 1, existe correlação linear muito forte.
4. REFERÊNCIAS BIBLIOGRÁFICAS
ARANGO, H. G. Bioestatística teórica e computacional. Rio de Janeiro: Guanabara Koogan, 2001. 235p.
CALLEGARI-JACQUES, S.M. Bioestatística: princípios e aplicações / Sídia M. Callegari-Jacques – Porto Alegre : Artmed, 2003. 255p.
COCHRAN, W.G. Sampling techniques. 3.ed. New York: John Wiley & Sons, 1953. 422p.
CONOVER, W. J. Practical nonparametric statistics. 3.ed. New York: John Wiley & Sons, 1999. 584p.
COSTA NETO, P.L..O. Estatística. São Paulo: Edgar Blücher, 1977. 264p.
DORIA FILHO, U. Introdução à bioestatística para simples mortais / Ulysses Doria Filho. São Paulo: Elsevier, 1999. 7a reimpressão. 158 p.
ESTRELA, C. Metodologia científica. São Paulo: Artes Médicas, 2001. 469 p.
FILHO, N.A.; ROUQUAYROL, M.Z. Introdução à epidemiologia. 3.ed. Rio de Janeiro: Guanabara Koogan S.A., 2002. 293p.
GUERRA, M.J.; DONAIRE, D. Estatística indutiva : teoria e aplicações. 3.ed. São Paulo: Ciência e Tecnologia, 1986. 312p.
DAHLBERG, G.. Statistical methods for medical and biological students. London: George Allen & Unwin LTD, 1990. 232 p.
IGNÁCIO, S.A. Estatística como ferramenta para análise de dados quantitativos e qualitativos para Ciências biológicas e da saúde. 2008, 77p.
JEKEL, J.F. Epidemiologia, bioestatística e medicina preventiva / James F. Jakel, Joann G. Elmore e David L. Katz; trad. Ricardo savaris. – Porto Alegre: Artes Médicas Sul, 1999. 328 p.
JERROLD, H.Z. Bioestatistical analysis. Prentce Hall: Upper Saddle River, New Jersey, 1996. 662 p.
SIEGEL, S. Estatística não paramétrica para as ciências do comportamento. São Paulo: McGraw-Hill, 1975. 350p.
SPIEGEL, M. R. Probabilidade e estatística. São Paulo: Mc Graw-Hill, 1978. 518p.
SUKHATME, P.V. et. al. Sampling theory of survey, with applications. Ames, Iowa, Iowa State College Press, 1984. 526 p.
THOMPSON, S.K. Sampling. Pensylvania. John Wiley & Sons, Inc. 1992. 343p.
TOLEDO, G.L.; OVALLE, I.I. Estatística básica. São Paulo: Atlas, 1991. 459p.
TRIOLA, M.F. Introdução à Estatística. LTC Livros Técnicos e Científicos Editora, 1999.
VIEIRA, S.M. Bioestatística: tópicos avançados. 1.ed. São Paulo: Campus, 2003. 228p.
VIEIRA, S.M. Introdução a bioestatística. 3.ed. São Paulo: Campus, 1998. 296p.
WERKEMA, M.C.C. Como estabelecer conclusões com confiança: entendendo inferência estatística. Belo Horizonte, MG: Fundação Christiano Ottoni, Escola de Engenharia da UFMG, 1996. 279 p. (Série Ferramentas da Qualidade).
WONNACOTT, R.J.; WONNACOTT, T.H. Fundamentos de estatística: descobrindo o poder da estatística. Rio de Janeiro: Livros Técnicos e Científicos, 1985. 356p.