desvendando a estatistica com o r commander -...

50
UTFPR - Universidade Tecnológica Federal do Paraná Desvendando a Estatística com o R Commander Prof. MSc. Jonas Joacir Radtke

Transcript of desvendando a estatistica com o r commander -...

UTFPR - Universidade Tecnológica Federal do Paraná

Desvendando a Estatística

com o R Commander

Prof. MSc. Jonas Joacir Radtke

Sumário

1 Introdução p. 3

1.1 Instalação do R Commander . . . . . . . . . . . . . . . . . . . . . . . . . . p. 3

1.2 Dados no R Commander . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 5

1.2.1 Importação de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . p. 5

1.2.2 Transformação de Dados . . . . . . . . . . . . . . . . . . . . . . . . p. 8

1.2.3 Conversão de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . p. 10

2 Estatística Descritiva p. 13

2.1 Gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 14

2.2 Medidas Descritivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 16

3 Testes de Hipóteses de Uma Amostra p. 20

3.1 Teste de Shapiro-Wilk para Normalidade da População . . . . . . . . . . . . p. 21

4 Testes de Hipóteses de Duas Amostras p. 25

4.1 Teste t para Amostras Pareadas . . . . . . . . . . . . . . . . . . . . . . . . . p. 25

4.2 Teste t para Amostras Independentes . . . . . . . . . . . . . . . . . . . . . . p. 29

5 Testes de Hipóteses de Mais de Duas Amostras p. 34

5.1 Análise de Variância para Um Fator (ANOVA) . . . . . . . . . . . . . . . . . p. 34

5.1.1 Teste de Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 36

5.1.2 Teste de Levene para Homogeneidade da Variância . . . . . . . . . . p. 41

Referências Bibliográficas p. 43

Anexo A -- Tabela da distribuição Normal p. 44

Anexo B -- Tabela da distribuição t de Student p. 45

Anexo C -- Tabela da distribuição F de Fisher p. 46

Anexo D -- Tabela da Distribuição de Intervalos de Student p. 47

Anexo E -- Tabela dos Coeficientes para o Teste de Shapiro-Wilk p. 48

Anexo F -- Tabela dos Valores Críticos do Teste de Shapiro-Wilk p. 49

3

1 Introdução

O presente material pretende apresentar de forma bastante sucinta as ideias relacionadas

as diversas ferramentas estatísticas abordadas. O foco principal deste texto é ajudar o leitor a

resolver problemas estatísticos utilizando o software R com a interface gráfica R Commander.

O R é um programa estatístico muito utilizado no meio acadêmico e comercial. Dentre as

vantagens de utilização deste programa está o fato de ser gratuito e muito robusto. A criação de

uma interface gráfica para o R, denominada R Commander, ampliou muito o número de adeptos

a este programa. Tal interface permite a exploração de todo o potencial do R de forma simples

e amigável.

Convém resaltar que a utilização direta de softwares amigáveis, sem o prévio conhecimento

dos fundamentos da metodologia, pode constituir um grande risco e levar o usuário a

interpretações perigosamente equivocadas (RODRIGUES; IEMMA, 2005).

1.1 Instalação do R Commander

O primeiro passo para a utilização do R Commander é a instalação do programa R. O

download deste programa pode ser feito no seguinte site:

http://cran.r-project.org/

Após o download e a instalação do programa R, o próximo passo é a instalação dos pacotes

básicos para o funcionamento da interface gráfica. Para tanto, abra o programa R e siga os

seguintes passos: [Pacotes] ◮ [Instalar pacote(s)] (Fig. 1.1). Na sequência, escolha um

espelho para o download e em seguida o pacote Rcmdr.

1.1 Instalação do R Commander 4

Figura 1.1: Instalação de pacotes no R.

Para inicializar o R Commander digite o seguinte comando no terminal do R:

> require(Rcmdr)

Na primeira vez que o R Commander for inicializado será solicitada a instalação de vários

pacotes necessários para o seu correto funcionamento. Aceite a solicitação, escolha o espelho

para download dos pacotes e aguarde a finalização da instalação e a abertura do R Commander

(Fig. 1.2).

Figura 1.2: Visão geral do R Commander.

1.2 Dados no R Commander 5

1.2 Dados no R Commander

Os dados utilizados pelo R Commander podem ser digitados diretamente nele, seguindo

os seguintes passos: [Dados] ◮ [Novo conjunto de dados...], e em seguinda escolhendo um

nome para o conjunto de dados. Contudo, na prática, os resultados são digitados em planilhas

eletrônicas para posteriormente serem importados para os programas estatísticos.

1.2.1 Importação de Dados

A forma mais comum de obter os dados para o R Commander é através de arquivos

oriundos de planilhas eletrônicas dos programas Microsoft Excel ou OpenOffice Calc. Ambos

os programas possuem uma opção de salvar as planilhas como arquivos de texto puro (com

extensão CSV, do inglês, Comma Separated Values).

Importação de Arquivos do Excel

O R Commander possui uma opção de importação dos dados de planilhas do Excel e de

arquivos CSV. A importação de arquivos de dados do Excel pode ser executada através dos

seguintes passos: [Dados] ◮ [Importar arquivos de dados] ◮ [de conjunto de dados do

Excel, Access, dBase...] (Fig. 1.3).

Figura 1.3: Importação de dados de arquivos do Excel.

Uma janela será aberta para que seja informado o nome do conjunto de dados. Na

sequência, outra janela será aberta para que seja selecionado o arquivo do Excel. Após escolher

o arquivo de origem dos dados será solicitada a planilha do arquivo que deve ser importada,

caso o arquivo possua mais de uma planilha.

1.2 Dados no R Commander 6

Importação de Arquivos CSV

Todas as planilhas de arquivos do Excel e do Calc podem ser salvas com extensão CSV. Para

fazer isto, abra o arquivo no programa Excel ou Calc e execute os seguintes passos: [Arquivo]

◮ [Salvar como...]. Na janela que abrir informe o nome do arquivo e, logo abaixo, escolha a

opção “CSV (separado por vírgulas)” no Excel ou “Texto CSV (.csv)” no Calc.

Apesar do Excel informar que o os campos serão separados por vírgula, eles serão separador

por ponto e vírgula. No Calc uma janela será aberta para escolher o delimitador de campo, que

deve ser alterado para ponto e vírgula (Fig. 1.4), porque, no Brasil, a vírgula é utilizada como

separador de decimais.

Figura 1.4: Escolha do delimitador de campo para arquivos CSV no Calc.

A importação de dados de arquivos com extensão CSV é realizada de forma similar a de

arquivos do Excel. Observando que os arquivos com extensão CSV são arquivos de texto

puro, cujos campos são separados por ponto e vírgula (;), siga os seguintes passos: [Dados]

◮ [Importar arquivos de dados] ◮ [de arquivos texto, clipboard ou URL...] (Fig. 1.5).

Figura 1.5: Importação de dados de arquivos com extensão CSV.

Na janela que abrirá escolha um nome para o conjunto de dados, altere o separador de

campos para “Outro - Defina: [;]” e o separador de decimais para “Vírgula [,]” (Fig. 1.6).

Logo após, será aberta uma janela para informar o nome do arquivo com formato CSV que

deseja importar.

1.2 Dados no R Commander 7

Figura 1.6: Definição de parâmetros para importação de dados de arquivos com extensão CSV.

Cuidados na Elaboração e Importação de Planilhas de Dados

Cuidados ao digitar os dados nas planilhas:

• O nome das variáveis de uma determinada coluna deve estar na primeira linha;

• Não devem ser utilizados caractéres especiais (ç, ascentos, entre outros) nos dados

informados na planilha;

• A planilha deve conter apenas o nome da variável e os dados do experimento.

• A utilização de células mescladas não é permitida.

Dicas:

• Evite a utilização de nomes compostos e/ou muito compridos;

• Exclua todas as linhas e colunas da planilha que já haviam sido utilizadas e que não

pertençam ao conjunto de dados do experimento;

• Visualize os dados no R Commander clicando em “Ver conjunto de dados” para

certificar-se que que foram carregados de forma correta.

1.2 Dados no R Commander 8

1.2.2 Transformação de Dados

Em algumas situações é necessário realizar a transformação dos dados amostrais, com

o objetivo de atingir determinadas exigências de certos testes estatísticos (pressupostos). A

transformação obtida geralmente melhora a aproximação dos dados à distribuição normal.

A normalidade dos dados é uma exigência comum para a aplicação de testes de hipótese.

Se a suposição de normalidade dos dados não é aceitável, podemos adotar a estratégia de

transformação da variável. Transformações são nada mais do que uma forma de reescrever

os dados numa unidade diferente.

Em muitas situações práticas a escolha da transformação para melhorar a aproximação à

distribuição normal não é óbvia. Segue abaixo algumas transformações comumente utilizadas:

• Contagens:√

x - Contribui para tornar as variâncias muito menores e desta forma mais

facilmente obter homocedasticidade (variâncias iguais).

• Proporções:1

2log

(

x

1− x

)

ou arcsen(√

x) - Contribuem para alterar a forma da

distribuição dos dados.

• Correlações: Fisher: z(x) =1

2log

(

1+ x

1− x

)

• Concentrações: log(x) ou ln(x) - Contribui para tornar as variâncias muito menores e

desta forma mais facilmente obter homocedasticidade.

Para ilustrar como é realizada a transformação de dados no R Commander tomamos como

exemplo os valores apresentados na tabela abaixo.

Tabela 1.1: Dados amostrais referentes ao número diário de peças defeituosas em uma linha de

produção.

4 5 4 3 2 9 5 4 2 4

O primeiro passo é a digitação destes valores em um única coluna no R Commander,

conforme apresentado na seção anterior (1a coluna da Fig. 1.7).

1.2 Dados no R Commander 9

Figura 1.7: Planilha do R Commander com os dados originais (cont) e transformados

(raiz_cont).

Para criar uma nova variável com os dados transformados deve-se seguir os seguintes

passos: [Dados] ◮ [Modificação de variáveis no conjunto de dados...] ◮ [Computar nova

variável...] (Fig. 1.8).

Figura 1.8: Opção no R Commander para criar uma variável transformada.

Uma janela será aberta para informar o nome da nova variável e a expressão matemática

para calcular os valores desta variável (raiz = sqrt, arcsen = asin, log10 = log10 e ln = log).

1.2 Dados no R Commander 10

Figura 1.9: Configuração do nome da nova variável e da expressão para realizar a

transformação.

Os resultados da nova variável, chamada raiz_cont, são apresentados na segunda coluna da

figura 1.7. Como podemos observar pelos histogramas apresentados na figura abaixo, a variável

transformada se ajusta mais a forma de um sino (distribuição normal) do que a variável original.

Esta conclusão pode ser estatísticamente comprovada por um teste de hipóteses (seção 3.1).

Figura 1.10: Histogramas da variável original (cont) e da variável transformada (raiz_cont).

1.2.3 Conversão de Dados

Muitas vezes necessita-se converter dados amostrais em formato numérico para um fator,

ou vice-versa. O R Commander possui uma opção para fazer isto de forma automática. Para

exemplificar o uso desta opção considere o seguinte exemplo:

Exemplo: A tabela abaixo possui a nota de estatística de uma amostra de 8 alunos.

Deseja-se saber qual o conceito de cada aluno. Alunos com nota maior ou igual a 9 devem

ter conceito A, entre 7,5 e 8,9 conceito B, entre 6 e 7,4 conceito C e conceito D para notas

menores que 6.

1.2 Dados no R Commander 11

Tabela 1.2: Notas de estatística de uma amostra de 8 alunos.

8,3 7,4 6,2 9,1 2,8 4,7 7,1 7,7

O primeiro passo é informar ou importar estes valores para o R Commander (1a coluna da

Fig. 1.11).

Figura 1.11: Notas e conceitos de estatística na amostra de alunos no R Commander.

Para converter cada nota em um conceito (fator), siga os seguintes passos: [Dados] ◮

[Modificação de variáveis no conjunto de dados...] ◮ [Recodificar variável...] (Fig. 1.12).

Figura 1.12: Opção no R Commander para conversão de dados.

Uma janela será aberta para informar o nome da nova variável e as definições para

recodificação (Fig. 1.13). O comando “:” é utilizado para indicar sequência, ou seja, a primeira

linha da definição abaixo diz que o conceito “D” corresponde as notas entre 0 e 5,9. O resultado

da conversão é apresentada na segunda coluna da figura 1.11. A conversão de fatores para dados

numéricos segue a mesma metodologia.

1.2 Dados no R Commander 12

Figura 1.13: Configuração no R Commander do nome da nova variável e das definições para

recodificação.

13

2 Estatística Descritiva

A estatística descritiva é um ramo da estatística que aplica várias técnicas para descrever e

sumarizar um conjunto de dados. O tratamento dos dados na estatística descritiva tem como

objetivo organizá-los e resumi-los, a fim de facilitar a interepretação de uma determinada

variável através de uma amostra.

Para compreender as diversas ferramentas da estatística descritiva considere o seguinte

exemplo.

Exemplo: Na tabela abaixo são apresentadas 48 medidas em milímetros do comprimento

de uma peça, por sinal, uma das características essenciais da peça.

Tabela 2.1: Medidas em milímetros do comprimento de uma amostra de 48 peças.

101,22 99,06 97,57 100,81 100,92 99,92 100,41 99,14

100,00 99,79 99,57 100,24 98,87 101,16 100,01 99,07

100,27 100,41 99,96 99,85 101,47 99,98 102,14 98,47

101,78 101,17 101,73 100,17 100,82 98,98 99,18 100,98

100,42 99,25 100,81 98,13 101,55 100,35 100,63 98,94

Uma tabela de números não é nada interessante para um engenheiro que deseja analisar

a qualidade das peças produzidas. A questão que a estatística descritiva deseja responder

é de como este conjunto de informações pode ser apresentado de forma resumida e de fácil

interpretação.

A forma correta de informar o conjunto de dados da tabela 2 no R Commander é através de

uma tabela com apenas uma única coluna, pois todos os dados são referentes a mesma amostra.

2.1 Gráficos 14

2.1 Gráficos

Sem a menor dúvida, a melhor maneira de analisar uma série de dados é graficamente.

A tentativa de ver padrões e tendências em uma relação de dados escritos em uma tabela

certamente resultará em fracasso, especialmente quando o número de dados é grande.

Para criar um gráfico (histograma) dos resultados apresentados na tabela 2, o primeiro passo

é determinar em quantas classes (k) os valores serão divididos. Este valor comumente é dado

pela raiz quadrada do tamanho da amostra (n), ou seja,

k =√

n =√

40 ≈ 6,3245 (2.1)

Assim, para este exemplo, podemos utilizar 6 ou 7 classes no histograma. Optaremos por 6

classes. O próximo passo é calcular a amplitude total (AT ) da amostra, que é dada pela diferença

entre o maior e o menor valor observado (xi), ou seja,

AT = max1≤i≤n

xi − min1≤i≤n

xi = 102,14−97,57 = 4,57 (2.2)

Para definir o intervalo referente a cada classe calcula-se a amplitude de classe (AC), dada

por:

AC =AT

k=

4,57

6= 0,7617 (2.3)

O início da primeira classe pode ser arredondado para baixo para utilizar um valor que

facilite a interpretação do gráfico. A amplitude de classe também pode ser arredondada, para

cima ou para baixo, com o mesmo objetivo. Tais arredondamentos podem variar um pouco o

número de classes pré-definido sem perda da qualidade do resultado.

A determinação do intervalo correspondente a cada classe é realizada tomando-se como

base o menor valor da amostra (ou o valor arredondado) e somando-se sucessivamente a

amplitude de classe. A cada soma é definido um intervalo correspondente a uma das classes.

Arredondando a amplitude de classe para 1mm e iniciando a primeira classe em 97mm, obtemos

da tabela 2 os seguintes resultados:

2.1 Gráficos 15

Tabela 2.2: Tabela de frequências do comprimento de uma amostra de 48 peças.

Classe Ponto médio Frequência Frequência relativa

97 ⊢ 98 97,5 1 2,5%

98 ⊢ 99 98,5 5 12,5%

99 ⊢ 100 99,5 12 30,0%

100 ⊢ 101 100,5 14 35,0%

101 ⊢ 102 101,5 7 17,5%

102 ⊢ 103 102,5 1 2,5%

Total 40 100,0%

A frequência de cada classe é obtida verificando-se quantos valores da amostra estão

contidos em cada intervalo. A notação ⊢ indica que o intervalo é fechado no valor a esquerda e

aberto no valor da direita. O histograma dos valores da tabela 2.1 é construído desenhando-se

retângulos justapostos com altura proporcional a frequência de cada classe (Fig. 2.1).

Conjunto1$comprimento

freq

uenc

y

97 98 99 100 101 102 103

02

46

810

1214

Figura 2.1: Histograma de frequências dos comprimentos de uma amostra de 40 peças.

Importando ou digitando os valores no R Commander, podemos gerar o histograma

apresentado na figura 2.1 efetuando os seguintes passos: [Gráficos] ◮ [Histograma...] (Fig.

2.2).

2.2 Medidas Descritivas 16

Figura 2.2: Opção no R Commander para criação de histograma de uma variável do conjunto

de dados ativo.

Na janela aberta (Fig. 2.3) deve-se escolher a variável a ser plotada e o número de classes

utilizado no histograma. O R Commander ajusta este valor caso julge necessário para melhorar

a apresentação do gráfico.

Figura 2.3: Configuração para criação de um histograma no R Commander.

2.2 Medidas Descritivas

Medidas descritivas são valores que resumem uma característica de um conjunto de dados.

Podem ser utilizadas de forma alternativa ou complementar ao uso de gráficos, para descrever

e explorar dados quantitativos.

Todas as medidas descrivivas apresentadas nesta seção podem ser obtidas no R Commander

seguindo os seguintes passos: [Estatísticas] ◮ [Resumos] ◮ [Resumos numéricos...] (Fig.

2.4). A escolha de quais variáveis e medidas serão apresentadas é realizada na janela que se

abrirá. Os resultados são apresentados na janela de resultados do R Commander com a seguinte

notação: “mean”, “sd” e “cv”, respectivamente para a média, o desvio padrão e o coeficiente de

variação.

2.2 Medidas Descritivas 17

Figura 2.4: Opção no R Commander para obtenção das principais medidas descritivas.

Média

A média (ou média aritmética) é uma das principais medidas descritivas. Ela fornece uma

valor típico do conjunto de dados. Duas médias aritméticas diferentes são consideradas ao longo

deste material, a média populacional (µ) e a média amostral (x). A primeira, em geral, não pode

ser encontrada, pois para isto teriamos que conhecer todos os valores de uma população.

Comumente podemos determinar apenas a média amostral, pois avaliamos a propriedade

de uma amostra de tamanho finito e bastante limitado. A média amostral é dada pela soma de

todos os valores amostrais (xi) dividido pelo tamanho da amostra (n), ou seja,

x =

n

∑i=1

x

n(2.4)

Para determinar a média dos valores apresentados na tabela 2, somamos os comprimentos

de todos os parafusos e em seguida dividimos o resultado pelo tamanho da amostra (n = 40),

ou seja,

x =101,22+99,06+97,57+100,81+ . . .+100,63+98,94

40= 100,13 (2.5)

Mediana

Além da média, uma propriedade de um conjunto de dados pode ser resumido utilizando

a mediana (Md). Esta medida tem o mesmo objetivo da média, mas é menos sensível a

valores discrepantes. Para determinar a mediana devemos colocar os dados amostrais em ordem

crescente. A mediana é dada pelo dado amostral que divide tal ordenação ao meio. A posição

(l) do valor da mediana na ordenação é dada por:

l =n+1

2(2.6)

2.2 Medidas Descritivas 18

Se l for fracionário, toma-se como mediana a média dos valores de posições mais próximas

a l.

Para os dados amostrais da tabela 2 temos que a posição da mediana é dada por l = (40+

1)/2 = 20,5. Colocando os dados em ordem crescente observamos que os valores de posição

20 e 21 são respectivamente iguais a 100,17 e 100,24. Logo, a mediana é Md = (100,17+

100,24)/2 = 100,205.

Quartis e Extremos

Os quartis são valores que junto com a mediana dividem a amostra em quatro partes iguais,

cada uma contendo 25% dos dados. Na prática, podemos utilizar os cálculos realizados para

obter uma mediana para a primeira metade dos dados (valores menores do que a mediana) e

outra mediana para a segunda metade (valores maiores que a mediana). Estes dois divisores são

chamados respectivamente de quartil inferior (QI) e quartil superior (QS).

Para os dados amostrais da tabela 2 temos que a mediana tem posição l = 20,5.

Arredondando este valor para baixo calculamos a posição do quartil inferior [l = (20+1)/2 =

10,5]. Assim, o valor do quartil inferior é dado pela média dos valores das posições 10 e 11, ou

seja, QI = (99,18+99,25)/2 = 99,215.

O valor do quartil superior pode ser calculado utilizando a(s) mesma(s) posição(ões) já

determinadas para o quartil inferior, a diferença é que para o quartil superior conta-se a posição

do último para o primeiro, como se os dados fossem ordenados decrescentemente. Portanto, o

quartil superior é igual a QS = (100,92+100,82)/2 = 100,87.

Os extremos inferior EI e superior ES são dados, respectivamente, pelo menor e maior valor

observado na amostra. Nos dados amostrais apresentados na tabela 2 temos que o extremo

inferior (EI) é igual a 97,57 e o extremo superior (ES) igual a 102,14.

Variância e Desvio Padrão

Tão importante quanto as medidas de tendência central (média e mediana) são as

medidas de dispersão, variância e desvio padrão. Tais medidas são grandezas estatísticas que

representam como os dados se espalham ao redor da média, ou seja, exprimem o quão dispersos

estão os dados.

O desvio padrão e a variância populacionais são representados pelas letras σ e σ 2,

respectivamente. O desvio padrão e a variância amostrais são representados pelas letras s e

2.2 Medidas Descritivas 19

s2, respectivamente, e podem ser calculados por

s =

n

∑i=1

(xi − x)2

n=

n

∑i=1

x2i −n · x2

n(2.7)

e

s2 =

n

∑i=1

(xi − x)2

n=

n

∑i=1

x2i −n · x2

n(2.8)

Coeficiente de Variação

Muitas vezes, em situações práticas, precisamos comparar a variabilidade de dois ou mais

conjuntos de dados. Ocorre que tais conjuntos podem estar descritos com diferentes unidades de

medidas, por exemplo: metros e quilos, impossibilitando a comparação através das variâncias

ou dos desvios padrão.

Para viabilizar comparações desse tipo, definiu-se o Coeficiente de Variação (cv), que

presta-se para comparar dispersões relativas de distribuições de dados, de mesma unidade ou

de unidades diferentes. Tal medida exprime a variação em relação a média e, independe de

unidades de medidas:

cv =( s

x

)

·100% (2.9)

20

3 Testes de Hipóteses de Uma Amostra

A estatística inferencial é um conjunto de técnicas utilizadas com o objetivo de determinar

uma característica da população a partir dos valores de uma amostra. Os testes de hipótese

fazem parte destas técnicas. Hipótese estatística é uma suposição sobre algum parâmetro da

população, que será posta à prova através do teste de hipótese.

De forma geral, os testes de hipóteses são elaborados a partir de duas hipóteses, nula (H0)

e alternativa (H1). Na hipótese nula (H0) as diferenças observadas em relação aos valores

esperados, são consideradas fruto do acaso, devido a aleatoriedade dos dados. Na hipótese

alternativa (H1) considera-se que tais diferenças são devidas ao fato da população ter realmente

tal característica.

A relação existente entre as variáveis é traduzida pelo valor de p (ou, p-valor). Para

valores de p < α rejeita-se a hipótese nula, ou seja, a probabilidade das diferenças registadas

na amostra serem devidas ao acaso é muito pequena (existe portanto grande probabilidade de

estas diferenças existirem de fato na população). No caso de p > α , diz-se não existir evidência

suficiente para rejeitar a hipótese nula (logo, aceita-se H0).

Protocolo para a realização de um teste de hipóteses:

(a) Enunciar claramente as hipóteses H0 e H1;

(b) Fixar o nível de significância (α). Em geral α = 0,05 (5%);

(c) Calcular o valor da estatística do teste, que depende do parâmetro que se deseja testar;

(d) Decisão: Se p > α aceita-se H0, caso contrário, rejeita-se H0;

(e) Enunciar claramente a conclusão do teste.

3.1 Teste de Shapiro-Wilk para Normalidade da População 21

3.1 Teste de Shapiro-Wilk para Normalidade da População

Um fato importante a ser ressaltado é que a validade dos resultados obtidos através

dos testes de hipótese paramétricos (teste t, análise de variância, entre outros) é fortemente

dependente da normalidade dos dados analisados. Salvo raras exceções, resultados de análises

estatísticas efetuadas através de métodos paramétricos não são confiáveis se os dados não

pertencem a amostras extraídas de populações com distribuições normais (RODRIGUES;

IEMMA, 2005).

O teste de Shapiro-Wilk é utilizado para verificar se a amostra provém, ou não, de uma

população com distribuição normal. Portanto, este teste é baseado nas seguintes hipóteses:

H0 : A amostra provém de uma população normal

H1 : A amostra não provém de uma população normal

O primeiro passo para aplicação do teste de Shapiro-Wilk é a ordenação crescente dos dados

amostrais. Assim, denotamos x1 o menor e xn o maior valor observado. O próximo passo é o

cálculo do valor da constante b, determinada da seguinte forma:

b =n/2

∑i=1

an−i+1 · (xn−i+1 − xi) (3.1)

em que os xi são os valores amostrais ordenado e os an−i+1 são constantes tabeladas cujos

valores são apresentados no anexo E.

O valor observado da estatística do teste de Shapiro-Wilk é denotata por Wo e obtido através

da seguinte expressão:

Wo =b2

n

∑i=1

(xi − x)2

=b2

n

∑i=1

x2i −n · x2

(3.2)

Os valores críticos para o teste de Shapiro-Wilk são apresentados no anexo F. Quanto maior

o valor observado da estatística (Wo), maior são as evidências de que os dados são normais,

assim, caso o valor de Wo seja maior do que o valor crítico Wc, aceita-se H0, ou seja, aceita-se

que a amostra provém de uma população com distribuição normal.

Exemplo: Avaliar a normalidade dos dados de uma amostra aleatória do comprimento de

10 peças.

3.1 Teste de Shapiro-Wilk para Normalidade da População 22

Tabela 3.1: Dados referentes ao comprimento, em centímetros, de 10 peças de uma amostra

aleatória.

1,90 2,22 2,10 1,69 1,52 2,75 2,31 1,98 1,42 1,99

Solução manual:

Ordenando os dados amostrais fornecidos pela tabela 3.1 obtemos

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10

1,42 1,52 1,69 1,90 1,98 1,99 2,10 2,22 2,31 2,75

i n− i+1 an−i+1 xn−i+1 xi an−i+1 · (xn−i+1 − xi)

1 10 0,5739 2,75 1,42 0,7633

2 9 0,3291 2,31 1,52 0,2600

3 8 0,2141 2,22 1,69 0,1135

4 7 0,1224 2,10 1,90 0,0245

5 6 0,0399 1,99 1,98 0,0004

Obtendo os valores de a da tabela do anexo E e multiplicando pela diferença entre os valores

de xn−i+1 e xi, conforme apresentado na tabela acima, podemos calcular o valor de b através da

equação 3.1, donde obtemos

b =n/2

∑i=1

an−i+1 · (xn−i+1 − xi) = 0,7633+0,2600+0,1135+0,0245+0,0004= 1,1617 (3.3)

Utilizando a equação 3.2 podemos determinar o valor observado da estatística (Wo) do teste

de Shapiro-Wilk, dado por:

Wo =b2

n

∑i=1

x2i −n · x2

=1,16172

1,422+1,522 + . . .+2,752−10 ·1,9882= 0,972 (3.4)

Considerando que o valor observado da estatística (Wo) é maior do que o valor crítico (Wc =

0,842), dado pela tabela do anexo F, aceita-se H0, ou seja, concluimos que a amostra provém

de uma população com distribuição normal.

3.1 Teste de Shapiro-Wilk para Normalidade da População 23

Solução com o R Commander:

Para aplicar o teste de Shapiro-Wilk aos dados amostrais da tabela 3.1 com o R Commander,

o primeiro passo é carregar tais valores no programa. Os dados devem ser informados em uma

única coluna. Como visto na seção 1.2, uma das formas de carregar estes dados é digitá-los

diretamente no R Commander (Fig. 3.1).

Figura 3.1: Digitação dos dados amostrais diretamente no R Commander.

Em seguida podemos aplicar o teste de Shapiro-Wilk seguindo os seguintes passos:

[Estatísticas] ◮ [Resumos] ◮ [Teste de normalidade de Shapiro-Wilk...] (Fig. 3.2).

Figura 3.2: Aplicação do teste de Shapiro-Wilk no R Commander.

Uma janela será aberta para informar qual variável do conjunto de dados ativo deve ser

avaliada (Fig. 3.3).

Figura 3.3: Configuração da variável para o teste de Shapiro-Wilk no R Commander.

3.1 Teste de Shapiro-Wilk para Normalidade da População 24

Dois resultados do teste são apresentados na janela de resultados do R Commander, o valor

observado da estatística, Wo = 0,9713, e o p-valor = 0,9024. Considerando que o p-valor é

maior do que o nível de significância de 5% (α = 0,05), aceita-se H0, ou seja, concluimos que

os dados amostrais provém de uma população com distribuição normal.

25

4 Testes de Hipóteses de Duas Amostras

4.1 Teste t para Amostras Pareadas

O chamado teste t é apropriado para comparar dois conjuntos de dados quantitativos, em

termos de seus valores médios. Nesta seção, trataremos do caso em que os dados são pareados.

Os pressupostos para a aplicação deste teste são os seguintes:

• Dados pareados;

• Normalidade da distribuição da variável de interesse (D).

As hipóteses do teste t são dadas a respeito da média populacional. Na hipótese nula (H0)

admite-se que não há diferença entre as médias populacionais das duas amostras, enquanto que

a hipótese alternativa (H1) admite que há diferença. A hipótese alternativa pode ser formulada

considerando simplesmente diferença (bilateral) ou admitindo-se que uma média é maior do

que a outra (unilateral), dependendo do contexto do problema. Exemplo:

H0 : µ1 = µ2

H1 : µ1 6= µ2 (bilateral)

A estatística do teste t para dados pareados baseia-se nos valores observados da variável

D, definida pela diferença de valores de cada par de dados do experimento. Num estudo

antes-e-depois:

Di = (medida depois)i − (medida antes)i (4.1)

Para encontrar a estatística do teste, precisamos calcular a média (D) e o desvio padrão (sD)

das diferenças, definidos respectivamente por:

D =

n

∑i=1

Di

ne sD =

n

∑i=1

(Di −D)2

n−1=

n

∑i=1

D2i −n ·D2

n−1(4.2)

4.1 Teste t para Amostras Pareadas 26

em que n é o tamanho da amostra (número de pares observados).

A estatística do teste é conhecida como estatística t para dados pareados, definida por:

t =D ·√n

sD(4.3)

O último passo é utilizar a tabela da distribuição t (anexo B) para determinar o p-valor,

utilizando o valor calculado de t e o número de graus de liberdade, dado por:

gl = n−1 (4.4)

Caso o p-valor seja menor do que o nível de significância (α) rejeita-se H0, ou seja,

concluimos que existe diferença significativa entre as médias ao nível de significância adotado.

Caso contrário, aceita-se que a diferença observada na amostra é devida apenas ao acaso

(aleatoriedade dos dados amostrais), e que as populações possuem médias iguais.

Exemplo: Tendo interesse em estudar os efeitos de determinada dieta alimentar sobre o

aumento do peso corporal em cobaias adultas, um investigador tomou uma amostra de 9 cobaias.

Determinou seus pesos antes e três meses após a administração da nova dieta. Com os dados a

seguir, analise o efeito da nova dieta, para α = 0,05.

Tabela 4.1: Peso das cobaias antes e depois da aplicação da nova dieta.

Antes: 54 61 50 74 79 58 55 49 63

Depois: 57 66 53 73 82 58 56 53 63

Hipóteses:

As hipóteses deste problema são dadas em relação a média, por:

H0 : µD = µA ou µD −µA = 0

H1 : µD > µA ou µD −µA > 0 (unilateral)

Na hipótese nula (H0) considera-se a situação onde a dieta não altera o peso das cobaias, ou

seja, o peso médio das cobaias antes da nova dieta será o mesmo que o peso médio depois da

nova dieta. Em contrapartida, a hipótese alternativa (H1) considera a situação onde a nova dieta

provoca aumento do peso médio das cobaias, ou seja, a peso médio das cobaias depois da nova

dieta será maior do que o peso médio antes da nova dieta.

4.1 Teste t para Amostras Pareadas 27

Solução manual:

O primeiro passo é obter as diferenças entre o peso depois e o peso antes da nova dieta,

dadas por:

Tabela 4.2: Diferença entre os pesos antes e depois da aplicação da nova dieta.

Diferença (D): 3 5 3 -1 3 0 1 4 0

O próximo passo é o cálculo da média e do desvio padrão da variável D, equações (4.2):

D =3+5+3+(−1)+3+0+1+4+0

9= 2 (4.5)

sD =

32 +52 +32 +(−1)2 +32 +02 +12 +42 +02 −9 ·22

9−1= 2,0616 (4.6)

A estatística t é determinada utilizando-se a equação (4.3):

t =2 ·

√9

2,0616= 2,9104 (4.7)

Utilizando a equação (4.4) determinamos o número de graus de liberdade:

gl = 9−1 = 8 (4.8)

Através da tabela da distribuição t de Student (anexo B) obtemos o p-valor, observando a

linha correspondente ao gl = 8, verificando na tabela que t = 2,9104 está entre 1,860 e 2,306.

Logo, como ilustrado na figura 4.1, a probabilidade de significância esta entre 0,005 e 0,01, ou

seja, 0,005 < p-valor < 0,01.

Figura 4.1: Utilização da distribuição t de Student com gl = 8 para obtenção da probabilidade

de significância num teste unilateral com t = 2,9104.

Considerando que o p-valor é menor do que 0,01, portanto, também é menor do que α =

0,05, rejeita-se H0 e conclui-se que há diferença significativa entre as médias de peso ao nível

4.1 Teste t para Amostras Pareadas 28

de significância de 5%. Ou seja, concluimos que a nova dieta provoca aumento de peso nas

cobaias ao nível de significância de 5%.

Solução com o R Commander:

Para resolver o problema utilizando o R Commander, o primeiro passo é o carregamento

dos dados da tabela 4.1. Para isso, podemos digitá-los em uma planilha eletrônica do Excel ou

diretamento do R Commander. Para testes pareados os resultados devem ser informados

em duas colunas, neste caso, uma com os valores antes e outra com os valores depois da nova

dieta (Fig. 4.2).

Figura 4.2: Lançamento dos dados para o teste t para dados pareados no R Commander.

Após os lançamento dos dados no próprio R Commander ou do carregamento dos dados

a partir de um arquivo, o próximo passo é escolher o teste que deve ser aplicado. Para tanto,

clique nas seguintes opções: [Estatísticas] ◮ [Médias] ◮ [Teste t (dados pareados)] (Fig.

4.3).

Figura 4.3: Aplicação do teste t para dados pareados.

Na janela que será aberta deve-se escolher as variáveis a serem comparadas, o nível de

confiânça e a hipótese alternativa (Fig. 4.4).

4.2 Teste t para Amostras Independentes 29

Figura 4.4: Opções para a aplicação do teste t para dados pareados.

Os resultados do teste são apresentados na janela de resultados do R Commander. Dentre

outros valores é apresentado o valor da estatística t = 2,9104, e o p-valor = 0,009788.

Considerando que o p-valor é menor do que 0,05, rejeitamos H0, ou seja, concluimos que a

nova dieta provoca aumento de peso nas cobaias, ao nível de significância de 5%.

4.2 Teste t para Amostras Independentes

Nesta seção o teste t é aplicado a casos onde desejamos comparar a média de duas amostras

aleatórias. Ao contrário da seção anterior, trataremos do caso em que os dados não são pareados.

Pressupostos para aplicação do teste t para amostras independentes:

• Aleatoriedade das amostras;

• Normalidade da distribuição da variável de interesse em cada grupo;

• Homogeneidade das variâncias amostrais dos grupos.

O objetivo deste método é verificar se existe, ou não, diferença estatística significativa entre

as médias de dois grupos. Logo, as hipóteses deste teste realizará a comparação entre a média

de um grupo com a média de outro grupo.

Para aplicar o teste t para amostras independentes precisamos calcular inicialmente a média

e a variância de cada grupo, utilizando as seguintes fórmulas:

x =

n

∑i=1

x

ne s2 =

n

∑i=1

x2 −n · x2

n−1(4.9)

Como o tamanho da amostra do grupo 1 pode ser diferente do grupo 2, utiliza-se o

subscrito para identificar qual das amostras está sendo considerada. Assim, n1, x1 e s21 são,

4.2 Teste t para Amostras Independentes 30

respectivamente, o tamanho da amostra, a média e a variância do grupo 1, enquanto que n2, x2

e s22 são, respectivamente, o tamanho da amostra, a média e a variância do grupo 2.

O número de graus de liberdade (gl) para o teste t para amostras independentes é dado por:

gl = n1 +n2 −2 (4.10)

O desvio padrão agregado (sa) é dado por:

sa =

(n1−1) · s21 +(n2 −1) · s2

2

gl(4.11)

A estatística do teste é dada por:

t =x1 − x2

sa ·√

1

n1+

1

n2

(4.12)

O último passo é a obtenção do p-valor através da tabela da distribuição t (anexo B),

utilizando os valores de gl e t calculados.

Exemplo: Para comparar dois métodos, A e B de ensinar matemática para crianças,

aplicou-se o método A num grupo de crianças e o método B em outro grupo. A comparação

entre os dois grupos foi realizada através de uma avaliação que mensurou o conhecimento

de matemática de cada criança. Os resultados obtidos são apresentados na tabela abaixo.

Determine ao nível de significância de 5% se existe diferença nos resultados obtidos pelos

diferentes métodos.

Tabela 4.3: Notas da avaliação de matemática obtidas pela crianças submetidas a dois métodos

de ensino diferentes.

Método de ensino A Método de ensino B

45 51 50 62 43 45 35 43 59 48

42 53 50 48 55 45 41 43 49 39

Hipóteses:

As hipóteses para o teste são dadas por:

H0 : µA = µB ou µA −µB = 0

H1 : µA 6= µB ou µA −µB 6= 0

4.2 Teste t para Amostras Independentes 31

A hipótese nula admite que não existe diferença entre os métodos de ensino, ou seja, em

média os métodos produzem o mesmo resultado no desempenho dos alunos. Em contrapartida,

a hipótese alternativa diz que existe diferença entre os métodos de ensino, ou seja, em média, os

alunos submetidos ao método de ensino A terão desempenho diferente dos alunos submetidos

ao método de ensino B.

Solução manual:

O primeiro passo para resolver o problema é o cálculo da média e do desvio padrão de cada

um dos dois grupos, utilizando as equações (4.9) obtemos:

x1 = 49,9 x2 = 44,7 s1 = 5,9712 s2 = 6,4987 (4.13)

O número de graus de liberdade é dado pela equação (4.10), donde temos:

gl = 10+10−2 (4.14)

Utilizando a equação (4.11) para calcular o desvio padrão agregado temos:

sa =

(10−1) ·5,97122+(10−1) ·6,49872

18= 6,2405 (4.15)

Utilizando a equação (4.12) obtemos a estatística do teste:

t =49,9−44,7

6,2405 ·√

1

10+

1

10

= 1,8632 (4.16)

O próximo passo é obter o p-valor através da tabela da distribuição t (anexo B). Para tanto,

olhamos na distribuição t a linha relacionada ao grau de liberdade (gl) igual a 18 e a coluna cujo

intervalo contenha o valor de t = 1,8632 (Fig. 4.5).

4.2 Teste t para Amostras Independentes 32

Figura 4.5: Utilização da distribuição t de Student com gl = 18 para obtenção da probabilidade

de significância num teste unilateral com t = 1,8632.

Pela tabela da distribuição t de student (anexo B) obtemos um intervalo para o p-valor entre

0,025 e 0,05 para um teste unilateral. Lembrando que o problema dado é bilateral (H1 : µA 6=µB), toma-se o dobro de cada um destes valores, obtendo-se então 0,05 < p < 0,1.

Como o p-valor é maior do que o nível de significância (α = 0,05), aceita-se H0, ou seja,

ao nível de significância de 5%, conclui-se que não existe diferença no resultado médio obtido

pelos diferentes métodos de ensino.

Solução com o R Commander:

O primeiro passo para resolver o problema com o R Commander é a digitação dos resultados

obtidos no experimento. No teste t para amostras independentes os dados devem ser informados

em duas colunas, uma com as notas e a outra com o método de ensino associado a cada nota

(Fig. 4.6). No início de cada coluna deve ser informado um título para os dados.

Figura 4.6: Digitação dos dados no Excel para aplicação do teste t para amostras independentes.

Os dados digitados em uma planilha do Excel devem ser importados para o R Commander

(conforme seção 1.2.1) informando um nome para o conjunto de dados. Para aplicar o teste

4.2 Teste t para Amostras Independentes 33

t para amostras independentes sobre o conjuto de dados ativo, siga os seguintes passos:

[Estatísticas] ◮ [Médias] ◮ [Teste t para amostras independentes...] (Fig. 4.7)

Figura 4.7: Aplicação do teste t para amostras independentes no R Commander.

Uma janela será aberta para configurar as informações relativas ao teste: variáveis que

contém o grupo e a resposta, o tipo de hipótese alternativa e o nível de confiança (Fig. 4.8).

Figura 4.8: Configurações para aplicação do teste t para amostras independentes bilateral e com

nível de confiança de 95%..

Os resultados do teste serão apresentados na janela de resultados do R Commander. Dentre

os principais valores destacamos o valor da estatística t = 1,8632 e o p-valor = 0,07883.

Considerando que o p-valor é maior do que o nível de significância (α = 0,05) aceita-se H0,

ou seja, concluimos que não existe diferença significativa entre os dois métodos de ensino de

matemática.

34

5 Testes de Hipóteses de Mais de Duas

Amostras

5.1 Análise de Variância para Um Fator (ANOVA)

A análise de variância (ANOVA) é um teste de hipóteses apropriado para comparar três

ou mais conjuntos de dados quantitativos, em termos de seus valores médios. Nesta seção em

particular, é tratado o caso onde apenas um único fator pode influenciar os resultados.

Pressupostos para a aplicação da análise de variância (ANOVA):

• Aleatoriedade e independência;

• Normalidade dos valores da amostra em cada um dos grupos;

• Homogeneidade de variância dos grupos (variância iguais em todos os grupos).

Considerando c grupos diferentes, as hipóteses consideradas na análise de variância são:

H0 : µ1 = µ2 = ...= µc

H1 : nem todas as médias são iguais

Na hipótese nula (H0) considera-se que o fator variado entre os grupos não afeta de forma

significativa a média dos resultados obtidos. Em contrapartida, a hipótese alternativa (H1)

admite que ao menos uma das médias é diferente das demais devido ao fator considerado.

O primeiro passo para obter a estatística F , utilizada na análise de variância, é o cálculo

da média geral (x) e da média de cada grupo (x j, onde j indica o grupo). Estes valores são

definidos por:

x =

c

∑j=1

n j

∑i=1

xi j

n(5.1)

5.1 Análise de Variância para Um Fator (ANOVA) 35

x j =

n j

∑i=1

xi j

n j(5.2)

onde c é o número de grupos, xi j é o i-ésimo valor do grupo j, n é o número total de amostras e

n j é o número de amostras do grupo j.

O próximo passo é o cálculo da variação total (ST ), da variação entre os grupos (SE ) e

da variação dentro dos grupos (SD). Estas variações são também conhecidas respectivamente

como: soma dos quadrados total, soma dos quadrados entre os grupos e soma dos quadrados

dentro dos grupos. As expressões para o cálculo destes valores são apresentados nas equações

seguintes:

ST =c

∑j=1

n j

∑i=1

(

xi j − x)2

(5.3)

SE =c

∑j=1

n j

(

x j − x)2

(5.4)

SD =c

∑j=1

n j

∑i=1

(

xi j − x j

)2

(5.5)

A variação dentro dos grupos pode ser calculada pela diferença entre a variação total ST e

a variação entre os grupos SE , ou seja

SD = ST −SE (5.6)

Na sequência devemos calcular a média total dos quadrados (MQ), a média dos quadrados

entre os grupos (ME) e a média dos quadrados dentro dos grupos (MD), dadas respectivamente

por:

MQ =ST

n−1(5.7)

ME =SE

c−1(5.8)

MD =SD

n− c(5.9)

Por fim, calcula-se o valor observado da estatística F (Fo), dada por

Fo =ME

MD(5.10)

a qual segue uma distribuição F , com c−1 graus de liberdade no numerador e n− c graus de

liberdade no denominador.

O valor do F crítico (Fc) é obtido da tabela da distribuição F (anexo C) considerando a

5.1 Análise de Variância para Um Fator (ANOVA) 36

(c−1)-ésima linha e a (n− c)-ésima coluna. Se Fo > Fc rejeita-se H0, caso contrário, aceita-se

H0 (Fig. 5.1).

Figura 5.1: Gráfico da distribuição F com as regiões de aceitação e rejeição de H0.

Quando conclui-se pela análise de variância que existe diferença entre as médias dos

grupos, não obtem-se quais dos grupos possui média diferente dos demais. Para responder

tal questão utiliza-se um teste auxiliar chamado teste de Tukey, apresentado na sequência.

5.1.1 Teste de Tukey

O teste de Tukey é um dos testes de comparação de média mais utilizados, por ser bastante

rigoroso e de fácil aplicação. Este teste é utilizado para testar toda e qualquer diferença entre

duas médias de tratamento.

O teste de Tukey faz a comparação entre a média de dois em dois grupos. Para cada par

de grupos (denotados por i e j) que serão comparados, o primeiro passo para aplicar o teste de

Tukey é calcular o intervalo crítico (Ic) dado por:

Ic = Qc

MD

2

(

1

ni+

1

n j

)

(5.11)

onde Qc é o valor crítico da cauda superior, a partir da distribuição de intervalos de Student,

possuindo c tratamentos e n− c graus de liberdade no denominador (anexo D).

Conhecido o intervalo crítico (Ic), deve-se calcular o módulo da diferença entre as médias

dos grupos i e j, ou seja:

|xi − x j| (5.12)

5.1 Análise de Variância para Um Fator (ANOVA) 37

Quando esta diferença é maior do que o intervalo crítico conclui-se que existe diferença

significativa entre as médias dos grupos i e j, caso contrário conclui-se que as médias dos

grupos i e j são iguais.

Exemplo: Você supervisiona a produção de uma padaria, cujos pães são fabricados com

farinha oriunda de um dentre quatro diferentes fornecedores. A qualidade dos pães produzidos

é uma característica importante que garante o aumento das vendas e consequentemente da

produção. Estabeleça se os pães produzidos com as diferentes marcas de farinha são igualmente

saborosos com base nos dados amostrais abaixo.

Tabela 5.1: Notas atribuidas pela análise sensorial dos pães produzidos com a farinha de quatro

diferentes fornecedores.

Forncedor A Forncedor B Forncedor C Forncedor D

68,5 76,3 70,6 75,4

74,0 75,3 75,2 69,9

67,2 74,0 70,8 72,6

69,9 71,2 74,7 67,5

68,0 74,5 72,9 70,4n

∑i=1

x 347,6 371,3 364,2 355,8

x j 69,52 74,26 72,84 71,16

Hipóteses:

As hipóteses para a análise de variância são as seguintes:

H0 : µA = µB = µC = µD

H1 : ao menos uma das médias é diferente

A hipótese nula (H0) considera que as farinhas de todos os quatro diferentes fornecedores

produzem em média pães com a mesma qualidade sensorial. Em contrapartida, a hipótese

alternativa (H1) considera o fato de que o fator fornecedor afeta a qualidade sensorial dos pães,

dizendo que existe diferença em ao menos uma das médias comparada as outras.

5.1 Análise de Variância para Um Fator (ANOVA) 38

Solução manual:

A média geral definida pela equação (5.1) fornece:

x = 71,945 (5.13)

Os valores das médias de cada grupo são dados na tabela do problema. As variações total,

entre grupos e dentro dos grupos, dadas respectivamente pelas equações (5.3), (5.4) e (5.6)

fornecem

ST = 160,7895 (5.14)

SE = 63,2855 (5.15)

SD = 160,7895−63,2855 = 97,5040 (5.16)

Na sequência são obtidas as médias entre grupos e dentro dos grupos, utilizando as equações

(5.8) e (5.9) obtemos

ME =SE

c−1=

63,2855

4−1= 21,0952 (5.17)

MD =SD

n− c=

97,5040

20−4= 6,0940 (5.18)

Por fim, podemos calcular o valor de F observado (Fo) através da equação (5.10)

Fo =ME

MD=

21,0952

6,0940= 3,4616 (5.19)

Pela tabela da distribuição F com nível de significância de 5% (anexo C), considerando

c−1 graus de liberdade no numerador e n− c graus de liberdade no denominador, obtemos o

valor do F crítico (Fc = 3,24). Como o valor de Fo > Fc rejeita-se H0, ou seja, concluimos que

existe diferença sensorial média entre os diferentes fornecedores de farinha.

Para identificar quais os pares de médias que são significativamente diferentes aplicamos o

teste de Tukey. Como todos os grupos possuem amostras do mesmo tamanho, calcula-se apenas

um único valor para o invevalor crítico. Pela valor da décima sexta coluna e terceira linha da

tabela da distribuição de intervalos de Student (anexo D) obtemos o valor crítico da amplitude

de Student (Qc = 3,65). Utilizando a equação 5.11 obtemos

Ic = 4,05

6,0940

2

(

1

5+

1

5

)

= 4,4712 (5.20)

Por fim, calcula-se o módulo da diferença entre a médias para cada combinação de

5.1 Análise de Variância para Um Fator (ANOVA) 39

fornecedores, donde obtemos:

A = B : |xA − xB|= |69,52−74,26|= 4,74 > 4,4712 ∗

A =C : |xA − xC|= |69,52−72,84|= 3,32 < 4,4712

A = D : |xA − xD|= |69,52−71,16|= 1,64 < 4,4712

B =C : |xB − xC|= |74,26−72,84|= 1,42 < 4,4712

B = D : |xB − xD|= |74,26−71,16|= 3,10 < 4,4712

C = D : |xC − xD|= |72,84−71,16|= 1,68 < 4,4712

Na comparação entre o valor absoluto das diferenças com o valor do intervalo crítico,

observa-se que apenas os fornecedor A com o fornecedor B apresenta diferença significativa

(denotada por ∗).

Solução com o R Commander:

A forma de informar os dados do experimento ao R Commander é similar a do teste t para

amostras independentes. Novamente na primeira linha é colocada o nome de cada variável. Na

primeira coluna é informado o fornecedor e na segunda coluna é informada a respectiva nota

(Fig. 5.2).

Figura 5.2: Digitação dos dados no Excel para aplicação da análise da variância pelo R

Commander.

Caso os dados forem digitados em uma planilha do Excel, o próximo passo é importá-la

para o R Commander. Em seguida, para aplicar a análise de variância execute os seguintes

passos: [Estatísticas] ◮ [Médias] ◮ [ANOVA para um fator (one way)...] (Fig. 5.3).

5.1 Análise de Variância para Um Fator (ANOVA) 40

Figura 5.3: Aplicação da análise de variância no R Commander.

Uma janela será aberta para informar o nome da coluna que contém os grupos e a

que contém a variável resposta. O teste de Tukey pode ser aplicado ativando-se a opção

“Comparação de médias 1 a 1” nesta janela (Fig. 5.4).

Figura 5.4: Configuração da análise de variância no R Commander.

Na janela de resultados do R Commander são apresentados os resultados inerentes a análise

de variância. Dentre os principais resultados é apresentada uma tabela com a soma dos

quadrados dentro dos grupos e entre os grupos (“Sum Sq”). Ao lado é apresentado as médias

dentro dos grupos e entre grupos (“Mean Sq”) e em seguida o F observado (“F value”) e o

p-valor (“Pr(>F)”) (Fig. 5.5).

Figura 5.5: Principais resultados da análise de variância apresentados pelo R Commander.

Caso o teste de Tukey tenha sido ativado, informações a respeito da comparação entre

as médias obtidas pelos diferentes grupos serão apresentado na janela de resultados. Um

resumo do teste é apresentado em uma tabela que mostra cada uma das comparações realizadas,

5.1 Análise de Variância para Um Fator (ANOVA) 41

juntamente com o valor da estatística t e o p-valor. Um código é apresentado onde é detectada

diferença significativa entre as médias: “·” para 10%, “∗” para 5% e “∗∗” para 1%.

Figura 5.6: Principais resultados do teste de Tukey apresentados no R Commander.

Exercício: Os próximos dados referem-se à redução no peso corporal de animais de

laboratório submetidos a diferentes dietas. Os animais foram previamente divididos em cinco

grupos, por faixa de peso no início do experimento. Compare as dietas entre si e verifique

também se a redução no peso varia entre as faixas de peso. Use 0,05 como nível de significância

no teste.

Faixa de peso Dieta A Dieta B Dieta C Total (B)

I 15 10 12 37

II 17 8 16 41

III 20 12 16 48

IV 24 16 15 55

V 19 18 22 59

∑x 95 64 81 240

∑x2 1851 888 1365 4104

5.1.2 Teste de Levene para Homogeneidade da Variância

Embora a análise de variância de fator único seja relativamente robusto com respeito ao

pressuposto de variâncias iguais nos grupos, grandes diferenças nas variâncias dos grupos

podem afetar seriamente o nível de significância e a eficácia do teste. Um dos procedimentos

com alta eficácia estatística é o teste de Levene. Para testar a homogeneidade da variância,

utilize as seguintes hipóteses:

H0 : σ 21 = σ 2

2 = ...= σ 2c

H1 : Nem todas as variâncias são iguais

5.1 Análise de Variância para Um Fator (ANOVA) 42

O primeiro passo para aplicar o teste de Levene é obter a mediana de cada grupo. Em

seguida, calcula-se o valor absoluto da diferença entre cada valor amostral e a mediana do

grupo a qual ele pertence. Sobre os resultados obtidos aplica-se a análise de variância. Caso o

p-valor deste teste for maior do que o nível de significância, aceita-se H0, ou seja, conclui-se

que as variâncias são iguais em todos os grupos.

43

Referências Bibliográficas

BARBETTA, P. A. Estatística aplicada às Ciências Sociais. 7. ed. Florianópolis, SC: Ed. da

UFSC, 2008.

FOX, J. The R Commander: A basic-statistics graphical user interface to R. Hamilton, Ontario,

Canada, September 2005. v. 14, n. 9.

LEVINE, D. M. et al. Estatística: teoria e aplicações. Rio de Janeiro: LTC, 2008.

RODRIGUES, M. I.; IEMMA, A. F. Planejamento de experimentos e otimização de processos:

Uma estratégia sequencial de planejamentos. 1. ed. Campinas, SP: Casa do Pão Editora, 2005.

TEAM, R. D. C. R: A Language and Environment for Statistical Computing. Vienna, Austria,

2009. Disponível em: <http://www.R-project.org>.

44

ANEXO A -- Tabela da distribuição Normal

45

ANEXO B -- Tabela da distribuição t de Student

46

ANEXO C -- Tabela da distribuição F de Fisher

47

ANEXO D -- Tabela da Distribuição de Intervalos de

Student

48

ANEXO E -- Tabela dos Coeficientes para o Teste de

Shapiro-Wilk

49

ANEXO F -- Tabela dos Valores Críticos do Teste de

Shapiro-Wilk