Apostila Statistica 6.0
-
Author
kaique-santos-teixeira -
Category
Engineering
-
view
109 -
download
0
Embed Size (px)
Transcript of Apostila Statistica 6.0
-
UNIVERSIDADE FEDERAL DE SANTA CATARINA
CENTRO TECNOLGICO
DEPARTAMENTO DE INFORMTICA E ESTATSTICA
ANLISE ESTATSTICA USANDO O
STATISTICA
6.0
Prof. Paulo Jos Ogliari, Dr. Eng. Juliano Anderson Pacheco, MSc.
FLORIANPOLIS SC JUNHO DE 2011
-
2
SUMRIO
1. INTRODUO ..................................................................................................................... 3
2. GERENCIAMENTO DE ARQUIVOS ............................................................................... 5
2.1. CRIAR UM NOVO ARQUIVO ................................................................................................ 6
2.2. IMPORTAO DE ARQUIVOS DO EXCEL ........................................................................... 10
3. ANLISE EXPLORATRIA DE DADOS ..................................................................... 13
3.1. DISTRIBUIO DE FREQNCIA DE VARIVEIS QUALITATIVAS ...................................... 13
3.1.1. Unidimensional ....................................................................................................... 13
3.1.2. Bidimensional ......................................................................................................... 23
3.2. DISTRIBUIO DE FREQNCIA DE VARIVEIS QUANTITATIVAS .................................... 35
3.2.1. Tabela de Distribuio de Freqncia para Varivel Quantitativa Discreta ........ 36
3.2.2. Representaes Grficas de Variveis Quantitativas Discretas ............................ 38
3.2.3. Dados Agrupados em Classes ................................................................................. 40
3.2.4. O Modelo Normal ................................................................................................... 44
3.3. ESTATSTICAS DESCRITIVAS ........................................................................................... 51
3.3.1. Medidas de Tendncia Central e Disperso ........................................................... 51
3.3.2. A Mdia e o Desvio Padro sob um Modelo Normal ............................................. 56
3.3.3. Desenho Esquemtico (Box Plot) ........................................................................... 59
3.3.4. Diagrama de Disperso .......................................................................................... 62
3.3.5. Coeficiente de Correlao ...................................................................................... 64
3.3.6. Ajuste da Equao de uma Reta ............................................................................. 66
4. OPES GRFICAS ........................................................................................................ 74
5. TESTES ESTATSTICOS PARA COMPARAO DE DUAS MDIAS ................... 81
5.1. TESTE DE DUAS MDIAS POPULACIONAIS COM VARINCIAS DESCONHECIDAS .............. 81
5.1.1. Amostras Independentes com Varincias Iguais e Desconhecidas ........................ 81
5.1.2. Amostras Independentes com Varincias Desiguais e Desconhecidas .................. 87
5.1.3. Amostras Dependentes (Dados Pareados) ............................................................. 91
5.1.4. Intervalo de Confiana para a Diferena de Duas Mdias no Caso de Dados
Pareados ..................................................................................................................................... 95
6. TESTE PARA DUAS OU MAIS PROPORES .......................................................... 98
6.1. O TESTE DO QUI-QUADRADO (CHI-SQUARE) ............................................................... 98
7. ANLISE DE VARINCIA ............................................................................................ 117
7.1. DELINEAMENTO INTEIRAMENTE CASUALIZADO ............................................................ 118
7.2. EXEMPLO ...................................................................................................................... 118
7.3. ANLISE ESTATSTICA .................................................................................................. 120
7.3.1. Anlise de Varincia ............................................................................................. 122
7.3.2. Comparaes Mltiplas de Mdias ...................................................................... 124
7.3.3. Contrastes Ortogonais .......................................................................................... 126
7.3.4. Diagnstico do Modelo ......................................................................................... 129
-
Cap. 1 Introduo
3
1. INTRODUO
O software STATISTICA um programa integrado para gerenciar Anlise Estatstica e Bases de Dados, caracterizando uma ampla seleo do processo
analtico, do bsico ao avanado, para as mais diversas reas - Cincias Biomdicas, Biolgicas, Engenharias, Cincias Sociais, Agrrias - permitindo a realizao de Data Mining (Minerao de Dados).
O sistema no inclui somente procedimentos estatsticos e grficos gerais, mas, tambm, mdulos especializados (Anlise de Regresso, Anlise de
Sobrevivncia, Sries Temporais, Anlise Fatorial, Anlise Discriminante e diversos outros mdulos). Dificilmente, o usurio necessitar de todos os mdulos oferecidos pelo STATISTICA para a anlise do seu trabalho, e ser, a partir de sua criatividade e conhecimento terico, que chegar as respostas dos seus objetivos.
Neste trabalho, foram desenvolvidos trs assuntos: a) Anlise exploratria de dados, b) Alguns testes de hipteses sobre mdias e propores e c) Anlise de varincia com um fator (one-way ANOVA).
Esta apostila foi elaborada com o propsito de auxiliar os estudantes de graduao e ps-graduao e demais interessados, na iniciao do uso de um
programa estatstico. Escolheu-se o programa STATISTICA, por apresentar uma plataforma interativa com o usurio e, tambm, por ser ele dos programas mais
completos da rea existente na atualidade.
Pede-se que qualquer problema encontrado na apostila, entrar em contato preferencialmente para [email protected] ou para [email protected]
-
Cap. 1 Introduo
4
Os captulos 2 e 3 sero baseados no seguinte exemplo:
Quadro 1.1 - Resultados de um experimento de competio de hbridos de milho para a regio preferencial I, com altitudes abaixo de 800m - safra: 1987/1988
Cultivar Rendimento mdio (kg/ha)
Ciclo (dias)
Altura planta (cm)
Altura espiga (cm)
Tipo de gro Ferrugem*
(escala)
1 6388 65 242 103 dentado r
2 6166 65 258 134 semi-dentado r
3 6047 65 240 104 semi-dentado s
4 5889 66 243 108 semi-dentado s
5 5823 69 257 128 dentado ms
6 5513 68 241 108 semi-dentado s
7 5202 64 235 108 dentado r
8 5172 68 240 103 dentado s
9 5166 69 253 123 dentado ms
10 4975 70 250 117 semi-dentado ms
11 4778 70 242 114 dentado mr
12 4680 66 245 111 semi-duro ms
13 4660 69 239 110 semi-duro mr
14 5403 73 264 138 dentado ms
15 5117 76 282 149 dentado mr
16 5063 72 274 151 dentado r
17 4993 71 279 134 semi-dentado r
18 4980 72 274 140 dentado ms
19 4770 73 244 140 dentado r
20 4685 71 265 139 semi-duro mr
21 4614 73 248 110 semi-dentado r
22 4552 73 265 128 semi-dentado r
23 3973 74 261 124 semi-dentado mr
24 4550 71 259 129 semi-duro s
25 5056 64 252 104 semi-duro mr
26 4500 70 271 109 dentado ms
27 4760 68 243 137 semi-duro r
28 5110 66 252 141 semi-dentado ms
29 4960 70 262 120 dentado ms
30 4769 73 260 118 dentado r
31 4849 74 250 119 semi-dentado s
32 5230 71 255 138 semi-duro s
Fonte: Boletim Tcnico, nmero 39, EMPASC S. A.
* r = resistente, mr = moderadamente resistente, s = susceptvel e ms = moderadamente susceptvel.
-
Cap. 2 Gerenciamento de Arquivos
5
2. GERENCIAMENTO DE ARQUIVOS
O STATISTICA trabalha com variveis categorizadas, qualitativas e quantitativas, permitindo a formao de grupos que sero analisados. Ou seja,
utiliza uma tcnica mais apropriada para resumir as informaes, adaptando qualquer tipo de varivel ao caso estudado e armazena as variveis mediante notao dupla, isto , utiliza os valores da varivel de forma categorizada (texto) e
na forma de nmeros, que podem ser valores codificados (numricos).
Por exemplo, a varivel Ferrugem, apresentada no Quadro 1.1, foi dividida
em categorias (quatro nveis): resistente (r), susceptvel (s), moderadamente susceptvel (ms) e moderadamente resistente (mr). O STATISTICA usar os cdigos numricos internamente, mas o usurio pode sempre referenciar a
ferrugem usando os textos respectivos, conforme apresentado na figura 2.1.
Figura 2.1 Administrador de valores
Feita a coleta de dados, atravs de censos, de levantamentos por amostragem ou de experimentos, geralmente estes dados se apresentam de
maneira desorganizada, ainda sem valor informativo sobre o fenmeno em estudo. Portanto, os mesmos devem ser organizados para possibilitarem a anlise.
A matriz de dados pode ser criada ou importada. A seguir esto os procedimentos para criar um novo arquivo e importar uma planilha do Excel.
-
Cap. 2 Gerenciamento de Arquivos
6
2.1. Criar um novo arquivo
(1) Abra o programa STATISTICA;
(2) Surgir um arquivo de dados vazio com 10 colunas (ou variveis) e 10 linhas (ou casos), conforme apresentado na Figura 2.2:
Figura 2.2 Arquivo de dados inicial
(3) Geralmente necessrio alterar esse arquivo inicial, com relao ao nmero de variveis ou de casos para permitir a digitao dos dados coletados
(4) Esse arquivo ser alterado para possibilitar a entrada dos dados apresentados
no Quadro 1.1, logo necessrio excluir 3 variveis e incluir mais 22 casos, gerando uma tabela com 7 colunas e 32 linhas
(5) Para excluir as 3 colunas, selecione as trs ltimas colunas, clique com o boto direito do mouse e escolha a opo [DELETE VARIABLES], proceder conforme apresentado nas Figuras 2.3 e 2.4:
-
Cap. 2 Gerenciamento de Arquivos
7
Figura 2.3 Procedimento para excluir variveis
Figura 2.4 Definio das variveis a excluir
(6) Para incluir os 22 casos, selecione a ltima linha, clique com o boto direito do mouse e escolha a opo [ADD CASES], proceder conforme apresentado nas
Figuras 2.5 e 2.6:
Figura 2.5 Procedimento para incluir casos
-
Cap. 2 Gerenciamento de Arquivos
8
Figura 2.6 Definio do nmero de casos a incluir
(7) o arquivo deve ser salvo, para isso no menu [FILE], escolha a opo [SAVE] e defina o nome do arquivo, conforme apresentado na Figura 2.7:
Figura 2.7 Gravao do arquivo criado
(8) Neste momento dispomos de uma tabela possvel para inserir os dados
apresentados no Quadro 1.1, mas primeiramente necessrio definir os nomes das variveis e os tipo de dados a serem inseridos
(9) Clique duas vezes em cima da primeira coluna e aparecer a janela
apresentada na Figura 2.8:
Figura 2.8 Definio das variveis
-
Cap. 2 Gerenciamento de Arquivos
9
onde:
Name: corresponde ao nome da varivel
Type: corresponde ao tipo da varivel, onde os valores possveis so: Double (valores com decimais), Integer (valores inteiros), Text (texto) e Byte (valores inteiros entre 0 e 255)
Display format: formato de apresentao dos dados
Observao: Para acessar a janela da Figura 2.1 e digitar os respectivos textos da varivel Ferrugem, basta clicar no boto [Text Labels] da janela apresentada na Figura 2.8.
(10) No Quadro 2.1 esto as possveis definies das 7 variveis apresentadas no Quadro 1.1:
Quadro 2.1. Definies das variveis
Varivel Name Type Display Format
Cultivar Cultivar Byte Number
Rendimento mdio (kg/ h) Rendimento Integer Number
Ciclo (dias) Ciclo Byte Number
Altura planta (cm) Altura_planta Integer Number
Altura espiga (cm) Altura_espiga Integer Number
Tipo de gro Tipo_grao Text -
Ferrugem (escala) Ferrugem Text -
(11) Agora possvel digitar os dados, conforme apresentado na Figura 2.9:
Figura 2.9 Digitao dos dados do Quadro 1
(12) Aps a digitao dos dados, salvar novamente o arquivo.
-
Cap. 2 Gerenciamento de Arquivos
10
2.2. Importao de Arquivos do Excel
Existem duas maneiras de importar arquivos no formato Excel. A primeira que ser descrita ideal no caso de planilhas pequenas, pois fcil selecionar a matriz de dados usando somente o mouse. No caso de grandes arquivos, utilize a segunda opo.
1 Opo:
(1) Abra o aplicativo Excel
(2) Carregue o arquivo de dados que se deseja transferir para o STATISTICA e copie para a rea de transferncia a regio da planilha que contm os dados,
conforme apresentado na Figura 2.10:
Figura 2.10 Cpia dos dados para a rea de transferncia
(3) No STATISTICA
, crie um novo arquivo com o mesmo tamanho que a regio
dos dados no Excel (mesmo nmero de colunas e linhas), o item 2.1 ensina como criar um novo arquivo
(4) Criado o arquivo, selecione a primeira clula cole os dados da rea de
transferncia, atravs do menu [EDIT], opo [PASTE] e o resultado est apresentado na Figura 2.11:
-
Cap. 2 Gerenciamento de Arquivos
11
Figura 2.11 Resultado da cpia dos dados da planilha do Excel
(5) Salve o novo arquivo criado, atravs desse processo.
2 Opo:
(1) Abrir o programa STATISTICA;
(2) No menu [FILE], escolher a opo [Open], aparecer a janela apresentada na
Figura 2.12, onde o formato a ser escolhido ser Excel files (*.xls)
Figura 2.12 Importao de arquivos
(3) Selecione a planilha a ser importada
(4) Ser apresentada a janela mostrada na Figura 2.13, que representa um
resumo da tabela de dados a ser importada;
-
Cap. 2 Gerenciamento de Arquivos
12
Figura 2.13 Resumo da planilha a ser importada
onde:
Range Columns: representa o nmero de variveis existentes na tabela de dados
Range Rows: representa o nmero de casos existentes na tabela de dados
Get case names from first column: atribui nomes aos casos conforme a primeira coluna da tabela de dados
Get variable names from first row: atribui nomes s variveis conforme a primeira linha da tabela de dados
Import cell formatting: importa a tabela mantendo a formatao existente no Excel
(5) O resumo deve ser verificado quanto ao nmero de variveis e casos existentes
na tabela de dados, se o mesmo diferir dos valores corretos, deve-se fazer o seguinte processo: copiar a rea dos dados, juntamente com os nomes das variveis e casos se existirem, para um novo arquivo do Excel, salvar e repetir todos os itens anteriores
(6) Se o quadro resumo estiver correto, prossiga e o resultado est apresentado
na Figura 2.14:
Figura 2.14 Resultado da importao da planilha do Excel
(7) salve o novo arquivo criado, atravs desse processo.
-
Cap. 3 Anlise Exploratria de Dados
13
3. ANLISE EXPLORATRIA DE DADOS
Os dados recolhidos que devem ser estudados, ou seja, organizados, sumarizados e descritos, sero pelo STATISTICA, explorados. Isto , procuraremos tirar o mximo de informaes de um conjunto de dados e, principalmente, tentar indicar um modelo que ser utilizado em uma fase posterior da anlise, a Inferncia Estatstica.
3.1. Distribuio de Freqncia de Variveis Qualitativas
O estudo de distribuies de freqncias nos permite conhecer a forma, ou
seja, a maneira de como os valores de uma varivel se comportam, e assim, podemos ter uma boa idia global dos valores e da sua distribuio.
Varivel qualitativa aquela que apresenta seu resultado em forma de
uma qualidade ou um atributo. Podem ser ordinais, quando existe uma ordem nos possveis resultados da mesma ou nominais, quando no
existe uma ordenao.
3.1.1. Unidimensional
Distribuio da freqncia de uma nica varivel.
Nesta seo, vamos construir a Tabela de Distribuio de Freqncia
Unidimensional e o Grfico de Barras para a varivel qualitativa ordinal resistncia ferrugem. A ordem o grau de ataque da doena.
3.1.1.1. Tabela de Distribuio de Freqncia Unidimensional
Exemplo: Anlise da distribuio de freqncia da varivel resistncia ferrugem.
(1) Abra o programa STATISTICA e o arquivo hibridos.sta
(2) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.1, onde a opo a ser escolhida ser Frequency Table:
-
Cap. 3 Anlise Exploratria de Dados
14
Figura 3.1 Estatsticas bsicas e tabelas
(3) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.2:
Figura 3.2 Tabelas de freqncia
(4) Clique no boto [Variables] e selecione a varivel Ferrugem, conforme apresentado na Figura 3.3. Se for mantido o boto esquerdo do mouse apertado,
com o movimento de subida e descida possvel selecionar vrias variveis ao mesmo tempo, para pular alguma, mantenha apertado a tecla CTRL do teclado e com o boto esquerdo do mouse clique na varivel de interesse:
Figura 3.3. Janela para seleo das variveis para a anlise
(5) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.4:
-
Cap. 3 Anlise Exploratria de Dados
15
Figura 3.4 Tabela de freqncia com a varivel ferrugem selecionada
(6) Clique na aba [Options] e defina as opes conforme apresentado na figura
3.5. Para desativar, basta clicar na opo correspondente, retirando assim, o smbolo . Para ativar, basta clicar na opo ainda no selecionada:
Figura 3.5 Opes da tabela de freqncia
(7) Clique no boto [Summary] e o resultado apresentado na Figura 3.6:
Figura 3.6 - Tabela de Distribuio de Freqncia Unidimensional
da varivel resistncia ferrugem.
-
Cap. 3 Anlise Exploratria de Dados
16
Concluso: a freqncia (ocorrncia) da varivel resistncia ferrugem na anlise de 32 hbridos :
10 resistentes (r) ferrugem = 31,250%
7 susceptveis (s) ferrugem = 21,875%
9 moderadamente susceptveis (ms) ferrugem = 28,125%
6 moderadamente resistentes (mr) ferrugem = 18,750%
Importante: a forma como o STATISTICA organiza as janelas durante a anlise a seguinte:
h o arquivo de dados com extenso .sta
os resultados so gerados no workbook, estes podem ser gravados num arquivo com extenso .stw. No caso da Figura 3.6 foi gravado o arquivo
Capitulo3.stw.
aps os resultados serem apresentados no workbook, a janela da anlise minimizada no canto inferior esquerdo. No caso da Figura 3.6 v-se que a anlise atual Frequency Tables.
3.1.1.2. Tabela de Distribuio de Freqncia Unidimensional com fator estratificado
Conforme pode ser visto direita embaixo da janela apresentada na Figura
3.5, existe o boto [Select Cases S] que permite filtrar os casos com base nas variveis disponveis. Abaixo esto dois exemplos da aplicao desse
procedimento de filtragem.
(1) Clique no boto [Select Cases S] da janela apresentada na Figura 3.5. Aparecer a janela apresentada na Figura 3.7:
Figura 3.7 Janela que permite especificar as condies
-
Cap. 3 Anlise Exploratria de Dados
17
(2) Como demonstrado na Figura 3.7, sero includos somente os casos que a varivel v6 (Tipo de gro) assume o valor dentado, que significar que a tabela
construda mostrar somente a distribuio da resistncia ferrugem para tipo de gro dentados
(3) Para isso, clique em Specific, selected by: By Expression, digite a condio: v6=dentado e clique no boto [OK]
(4) Ao voltar para a janela da figura 3.5, clique novamente no boto [Summary] e
o resultado est apresentado na Figura 3.8:
Figura 3.8 Resultado da distribuio da freqncia da varivel resistncia
ferrugem para o tipo de gro dentado
(6) Para realizar um estudo para hbridos de ciclo curto, hbridos com ciclo da cultura entre 64 e 70 dias, altere a condio de filtragem conforme apresentado
na Figura 3.9, onde a condio : v3>=64 and v3
-
Cap. 3 Anlise Exploratria de Dados
18
Figura 3.10 Resultado da distribuio da freqncia da varivel resistncia
ferrugem para hbridos de ciclo curto
3.1.1.3. Grfico de Colunas/Barras
O STATISTICA um programa que permite integrar um grande potencial grfico com a anlise estatstica de dados num nico aplicativo. A editorao grfica facilitada por meios de opes do sistema.
A construo de grficos est disponvel para qualquer mdulo do STATISTICA, visto que existe na barra do menu, a opo Graphs Clicando nela aparecem as opes grficas do aplicativo e cabe ao usurio conhecimento terico e intuitivo para que seja encontrada a melhor forma de representao do fenmeno.
Sero construdos grficos em duas e trs dimenses, como 1 exemplo, um simples histograma de freqncia (grfico de colunas/barras).
DICA: a compatibilidade do STATISTICA com o Windows plena, isto significa que todas as operaes comuns no Windows so reconhecidas e aceitas. Assim sendo, cortar e colar se combinam com Screen Catcher (Opo em Edit, na Barra de ferramentas do menu principal do STATISTICA que permite a captura da janela ou de um quadro), Alt + Print Screen (no teclado) que copia, trabalhando em conjunto com algum editor de figuras, como o Paint; e mais, h a possibilidade de salvar tudo o que foi feito em formato .rtf (rich text format) atravs do uso da opo Report, que permite criar relatrios internamente no programa, tornando o STATISTICA um editor de grficos bem completo.
Exemplo: Construo do grfico de colunas para a varivel resistncia ferrugem.
(1) No menu [Graphs], escolha a opo [Histograms], clique na aba [Advanced] e aparecer a janela apresentada na Figura 3.11:
-
Cap. 3 Anlise Exploratria de Dados
19
Figura 3.11 Janela para a especificao do grfico de colunas
(2) Selecione a varivel, clicando no boto [Variables] e depois na varivel que
ser estudada, conforme apresentada na figura a seguir:
Figura 3.12 Janela que mostra as variveis que podem ser selecionadas
(3) Na janela da Figura 3.11, especifique:
o tipo de grfico (Graph Type:) regular
o tipo de ajuste (Fit Type:) off (sem)
ativar o Breaks between Columns (para que haja espao entre as colunas)
O resultado das especificaes est apresentado na figura a seguir:
-
Cap. 3 Anlise Exploratria de Dados
20
Figura 3.13 Janela para a especificao do grfico de colunas
(4) Clicar em OK e o grfico resultante est apresentado na figura a seguir:
Figura 3.14 Grfico de colunas da varivel resistncia ferrugem
(5) Para fazer um grfico de barras, na janela da Figura 3.13, clique na aba [Options2], selecione na opo [X-Y Axis position] o valor Reverse e clique no boto [OK]. O grfico resultante est apresentado na figura a seguir:
-
Cap. 3 Anlise Exploratria de Dados
21
Figura 3.15 Grfico de barras da varivel resistncia ferrugem
Nota: No captulo 4 sero apresentadas as opes grficas para modificao do
layout dos grficos.
Imagina-se que os cultivares de 1 a 11 sejam do municpio de Iara. Se desejarmos fazer um grfico para este municpio, ento:
(6) Volte na janela da Figura 3.13, clique no boto [Select Cases] e crie o filtro apresentado na figura a seguir:
Figura 3.16 Janela que permite especificar os cultivares
(7) O grfico resultante est apresentado na figura a seguir:
-
Cap. 3 Anlise Exploratria de Dados
22
Figura 3.17 Grfico de barras da varivel resistncia ferrugem
para o municpio de Iara
Observao: Existe mais de uma maneira de gerar um grfico, como o uso do menu flutuante (pop-up menu), para us-lo, selecione a coluna da varivel desejada e clique com boto direito do mouse. Aparecer uma janela onde deve selecionar a opo Graphs of Input Data a seguir escolha o grfico adequado, conforme apresentado na figura a seguir.
Figura 3.18 Forma alternativa de gerar um Grfico
-
Cap. 3 Anlise Exploratria de Dados
23
3.1.2. Bidimensional
Com essa anlise possvel criar:
- Distribuio da freqncia para duas variveis;
- Tabelas de contingncia: independncia de variveis qualitativas, uso do:
o Coeficiente de contingncia de Pearson;
o Coeficiente de Cramr.
3.1.2.1. Tabela da Distribuio de Freqncia Bidimensional
Exemplo: Anlise da distribuio de freqncia das variveis resistncia ferrugem e tipo de gro.
(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer
a janela apresentada na Figura 3.19, onde a opo a ser escolhida ser Frequency Table:
Figura 3.19 Estatsticas bsicas e tabelas
(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.20:
Figura 3.20 Janela para especificao de tabela
(3) Clique no boto [Specify Tables (select variables)). Como a tabela bidimensional, implica que devemos escolher duas variveis conforme
apresentado na Figura 3.21. As variveis aparecero na List 1: e List 2:.
-
Cap. 3 Anlise Exploratria de Dados
24
Figura 3.21 Janela com as variveis selecionadas para a tabela bidimensional
(4) Clique nos botes [OK] da janela anterior e da Figura 3.20 e aparecer a
janela apresentada na Figura 3.22:
Figura 3.22 Janela para a visualizao do resultado
(5) Clique no boto [Summary] e o resultado est apresentado na Figura 3.23:
Figura 3.23 Tabela de distribuio de freqncia conjunta do n de hbridos, de acordo
com a resistncia ferrugem e tipo de gro
A linha All Grps mostra as freqncias absolutas, ou seja, o total de hbridos para cada categoria do tipo de gro. Como os totais marginais so diferentes, dificuldades reais de interpretao so introduzidas.
-
Cap. 3 Anlise Exploratria de Dados
25
Para uma melhor interpretao da tabela, o ideal selecionar que a tabela mostre os resultados em termos de propores, ou seja, podemos fixar o total
de linhas e/ou o total de colunas e/ou o total geral.
(6) Na janela da Figura 3.22, clique na aba [Options] e defina as opes conforme apresentado na figura 3.24. Para desativar, basta clicar na opo
correspondente, retirando assim, o smbolo . Para ativar, basta clicar na opo ainda no selecionada:
- Selecione Percentages of total count para a percentagem do total geral; ou
- selecione Percentages of row counts para a percentagem do total das linhas; ou
- selecione Percentages of column counts para a percentagem do total das colunas.
Figura 3.24 Opes da tabela de freqncia conjunta
Quando fixar o total de linhas e/ou o total de colunas e/ou o total geral?
A resposta deve ser de acordo com o objetivo da sua pesquisa. Fixe a varivel que voc quer dar mais nfase. No exemplo, se for a ferrugem, fixe somente o
total de linhas. Se for o tipo de gro, fixe somente o total de colunas.
(7) Escolha o tipo de percentagem e clique no boto [Summary]. Os resultados esto apresentados nas trs tabelas a seguir:
Figura 3.25 Selecionando somente o total geral
-
Cap. 3 Anlise Exploratria de Dados
26
Concluso: observando a figura anterior, pode-se concluir que do total de hbridos, 5 ou 15,63% so resistentes e dentados.
Figura 3.26 Selecionando somente o total de linhas
Concluso: observando a figura anterior, pode-se concluir que 4 ou 40% dos
resistentes so semi-dentados pois a soma na linha igual a 100%.
Figura 3.27 Selecionando somente o total de colunas
Concluso: observando a figura anterior, pode-se concluir que dos hbridos semi-dentados, 4 ou 36,36% so resistentes, ou ainda, semi-dentados e dentados
tem maior porcentagem de resistncia (36,36% e 35,71%, respectivamente contra 14,29% dos semi-duros).
As quatro figuras anteriores mostram o mesmo resultado, porm, repare que
fixar os totais percentuais no modifica o resultado e sim, enfatiza que resistentes, so os semi-dentados e os dentados.
-
Cap. 3 Anlise Exploratria de Dados
27
3.1.2.2. Grfico de Barras Mltiplas
Para efetuar uma anlise comparativa de vrias distribuies, podemos
construir um grfico de barras mltiplo.
(1) No menu [Graphs], escolha a opo [Categorized Graphs], em seguida [Histograms] e aparecer a janela apresentada na Figura 3.28:
Figura 3.28 Janela para a especificao do grfico de barras mltiplas
(2) Selecione as variveis, clicando no boto [Variables] e depois escolha a
varivel a ser estudada e a que ser a categoria, conforme apresentada na figura a seguir:
Figura 3.29 Janela para seleo das variveis
(3) Na janela da Figura 3.28, especifique:
o tipo de grfico (Layout:) Overlaid
O resultado das especificaes est apresentado na figura a seguir:
-
Cap. 3 Anlise Exploratria de Dados
28
Figura 3.30 Janela para a especificao do grfico de barras mltiplas
(5) Para fazer um grfico de barras, na janela da figura anterior, clique na aba
[Options2], selecione na opo [X-Y Axis position] o valor Reverse e clique no boto [OK]. O grfico resultante est apresentado na figura a seguir:
Figura 3.31 Grfico de barras mltiplas, ferrugem (e seus quatro nveis: resistente,
susceptvel, moderadamente susceptvel e moderadamente resistente) versus tipo de gro (e seus trs nveis:semi-duro, semi-dentado e dentado)
3.1.2.3. Tabelas de Contingncia: independncia de variveis
As tabelas construdas at aqui, so denominadas tecnicamente de tabelas de contingncia e so teis para estudar a dependncia (ou independncia) entre
-
Cap. 3 Anlise Exploratria de Dados
29
variveis. Vamos construir novamente a tabela bidimensional com as variveis ferrugem e tipo de gro, onde os totais de linhas foram fixados em 100%.
(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.32, onde a opo a ser escolhida ser Frequency Table:
Figura 3.32 Estatsticas bsicas e tabelas
(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.33:
Figura 3.33 Janela para especificao de tabela
(3) Clique no boto [Specify Tables (select variables)). Como a tabela bidimensional, implica que devemos escolher duas variveis conforme
apresentado na Figura 3.34. As variveis aparecero na List 1: e List 2:.
Figura 3.34 - Janela com as variveis selecionadas para a tabela bidimensional
-
Cap. 3 Anlise Exploratria de Dados
30
(4) Clique nos botes [OK] da janela anterior e da Figura 3.33 e aparecer a janela apresentada na Figura 3.35:
Figura 3.35 Janela para a visualizao do resultado
(5) Na janela da figura anterior, clique na aba [Options] e defina a opo
percentagem do total das linhas (Percentages of row counts) conforme apresentado na Figura 3.36.
Figura 3.36 Opes da tabela de freqncia conjunta
(6) Na janela da figura anterior, clique na aba [Advanced] e selecione a opo (Display selected %s in sep. tables) conforme apresentado na Figura 3.37. Essa
opo separa as freqncias dos valores percentuais em tabelas distintas.
Figura 3.37 Opes da tabela de freqncia conjunta
(7) Clique no boto [Summary] e os resultados esto apresentado nas figuras 3.38 e 3.39:
-
Cap. 3 Anlise Exploratria de Dados
31
Figura 3.38 Tabela de distribuio de freqncia conjunta do n de hbridos, de acordo
com a resistncia ferrugem e tipo de gro freqncias
Figura 3.39 Tabela de distribuio de freqncia conjunta do n de hbridos, de acordo
com a resistncia ferrugem e tipo de gro - percentuais
Interpretao: se os semi-dentados fossem totalmente independentes da
varivel resistncia a ferrugem, esperaramos 34,38% (All Grps) para as categoria r, s, ms e mr. Na tabela observamos que a categoria s apresenta 57,14%, valor este acima dos 34,38%. Da mesma forma, observamos tambm que a categoria
mr, com 16,67%, esta abaixo dos 34,38%. Isto implica um distanciamento da independncia entre as variveis. Podemos deduzir que elas esto associadas.
A determinao dos coeficientes de continncia de Pearson e Cramr, vo quantificar (forte, moderada ou fraca) a dependncia.
-
Cap. 3 Anlise Exploratria de Dados
32
(7) Clicar em Crosstabulation Tables Resultados: hbridos (lado esquerdo, embaixo) Options Na janela da Figura 3.36 selecione a opo (Phi (2x2 tables) & Cramrs V & C) conforme apresentado na Figura 3.40.
Figura 3.40 Opes da tabela de freqncia conjunta
(8) Na janela da figura anterior, clique na aba [Advanced] e no boto [Detailed two-way tables] e o resultado est apresentado na Figura 3.41:
Figura 3.41 Estatsticas para verificar a associao entre variveis
Observao: O STATISTICA no corrige o coeficiente de contingncia (Contingency coefficient) = 0,4521588. A seguir est a frmula para correo:
0,5538 31)-(3
0,4521588
t1)-(t
C * C
Como o coeficiente de contingncia est entre 0 e 1 (0 C* 1), temos uma associao moderada (mdia). Por outro lado, o coeficiente de Cramr (Cramrs V) - 0 V 1, indica uma associao fraca.
3.1.2.4. Grfico de Setores (Pie Charts)
(1) No menu [Graphs], escolha a opo [2D Graphs], em seguida [Pie Charts] e aparecer a janela apresentada na Figura 3.42:
-
Cap. 3 Anlise Exploratria de Dados
33
Figura 3.42 Janela para especificao do grfico de setores
(2) Selecione a varivel, clicando no boto [Variables] e depois escolha a varivel a
ser estudada, conforme apresentada na figura a seguir:
Figura 3.43 Janela para seleo das variveis
(3) Na janela da Figura 3.42, clique na aba [Advanced] e especifique:
o tipo de legenda (Pie legend): Text and Percent (mostra o texto (nveis) e as porcentagens)
o tipo de visualizao (Type): 3D (tridimensional)
a forma (Shape): Ellipse (elipse)
O resultado das especificaes est apresentado na figura a seguir:
-
Cap. 3 Anlise Exploratria de Dados
34
Figura 3.44 Janela para a especificao do grfico de setores
(4) Clique no boto [OK] e o grfico resultante est apresentado na figura a
seguir:
Figura 3.45 Grfico de setores para a ferrugem
(5) Para que os setores fiquem separados, clique com o boto direito do mouse em cima do grfico e escolha a opo (Graph Properies (All Options)). Na janela que abrir, clique na aba [Plot: Pie], ative o Exploded dos quatro setores, conforme apresentado na Figura 3.46:
-
Cap. 3 Anlise Exploratria de Dados
35
Figura 3.46 Opes grficas do Pie Charts
(6) Clique no boto [OK] e o grfico resultante est apresentado na figura a
seguir:
Figura 3.47 Grfico de setores para a ferrugem
3.2. Distribuio de Freqncia de Variveis Quantitativas
Varivel quantitativa aquela que apresenta como resultado, medidas e
contagens. Podem ser contnuas e discretas. As contnuas, so todas as que, pelo menos em teoria, possam assumir qualquer valor dentro de um intervalo; enquanto as discretas, normalmente resultam de contagens, so nmeros
inteiros e s assumem certos valores.
Neste caso podemos estabelecer duas situaes:
-
Cap. 3 Anlise Exploratria de Dados
36
1) Varivel contnua - classes de ocorrncia
Observao: quando temos poucas observaes, at aproximadamente 25, a
distribuio pode ser representada por meio de um diagrama de pontos. O programa STATISTICA no faz este diagrama.
2) Varivel discreta - distribuio de freqncia feita de maneira
idntica s variveis qualitativas (categorizadas). Tambm pode ser representada por um diagrama de pontos.
3.2.1. Tabela de Distribuio de Freqncia para Varivel Quantitativa Discreta
Se os resultados da varivel discreta no so muitos, podemos dar o mesmo
enfoque dado as variveis qualitativas.
(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer
a janela apresentada na Figura 3.50, onde a opo a ser escolhida ser Frequency Table:
Figura 3.50 Estatsticas bsicas e tabelas
(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.51:
Figura 3.51 Tabelas de freqncia
-
Cap. 3 Anlise Exploratria de Dados
37
(3) Clique no boto [Variables] e selecione a varivel Ciclo, conforme apresentado na Figura 3.52:
Figura 3.52. Janela para seleo das variveis para a anlise
(4) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.53:
Figura 3.53 Tabela de freqncia com a varivel Ciclo selecionada
(5) Clique na aba [Options] e defina as opes conforme apresentado na figura 3.54:
Figura 3.54 Opes da tabela de freqncia
(6) Clique no boto [Summary] e o resultado est apresentado na Figura 3.55:
-
Cap. 3 Anlise Exploratria de Dados
38
Figura 3.55 Tabela de Distribuio de Freqncia da varivel Ciclo
3.2.2. Representaes Grficas de Variveis Quantitativas Discretas
Os grficos de barras justapostas, conhecidos como histogramas, so indicados no caso de variveis contnuas. Podemos ento, construir um GRFICO
DE ORDENADAS para o caso de uma varivel discreta, como por exemplo, a varivel ciclo da cultura.
O procedimento no STATISTICA o mesmo que construir um grfico de barras j descrito anteriormente no item 3.1.1.3. Entretanto, o grfico de ordenadas ser construdo para a varivel Ciclo, portanto, siga os passos do
exemplo das figuras 3.11 a 3.14, no esquecendo de alterar no item (2) para a varivel Ciclo.
(1) O grfico resultante est apresentado na Figura 3.56:
Histogram (hibridos.sta 8v*32c)
64 66 68 70 72 74 76
Ciclo
0
1
2
3
4
5
6
No o
f obs
Figura 3.56 Grfico de colunas da varivel Ciclo
-
Cap. 3 Anlise Exploratria de Dados
39
(2) Clique com o boto direito do mouse em cima do grfico e escolha a opo (Graph Properties (All Options)). Na janela que abrir, clique na aba [Plot: Bars] e modifique a opo Type para Lines, conforme apresentado na Figura 3.57:
Figura 3.57 Opes grficas do 2D Histograms
(3) Clique no boto [OK] e o grfico resultante est apresentado na figura a seguir:
Histogram (hibridos.sta 8v*32c)
64 66 68 70 72 74 76
Ciclo
0
1
2
3
4
5
6
No o
f obs
Figura 3.58 Grfico de ordenadas da varivel ciclo
Quando temos muitas observaes de uma varivel em estudo (acima de 25),
recomendvel a formao de intervalos de valores, isto , construir classes de ocorrncias.
-
Cap. 3 Anlise Exploratria de Dados
40
O STATISTICA pode agrupar os dados em quantas classes quisermos, e a, construir tabelas e grficos em funo dos intervalos. Usar este artifcio uma
maneira de encontrar uma melhor representao do fenmeno em estudo.
Os intervalos ou so por ele agrupados (dados agrupados em classes), divididos de maneira igual conforme um n previamente estipulado (n of exact intervals), ou, o pesquisador define estas classes (amplitude de casas desiguais).
3.2.3. Dados Agrupados em Classes
Quantos intervalos escolher?
O nmero de classes deve ser o suficiente para nos dar uma boa idia do
fenmeno, devendo por em evidncia a regularidade do fenmeno.
O compromisso de cada pesquisador. Construindo sucessivamente diferentes histogramas, alterando o nmero de intervalos, possvel identificar a
melhor opo, e assim, deve escolher o que melhor representa a distribuio do fenmeno por ele estudado.
Recomenda-se que o nmero no seja muito grande (maior que 15) e nem
muito pequeno (menor que 5) e tambm, sempre que for possvel, que as classes tenham a mesma amplitude.
Procedimento:
(1) Repetir os passos (1) a (5) do item 3.2.1 (Tabela de Distribuio de Freqncia para Varivel Quantitativa Discreta), porm altere a varivel para rendimento.
(2) Clique na aba [Advanced] e defina a opo No. of exact intervals igual a 6, conforme apresentado na figura 3.59:
Figura 3.59 Opes da tabela de freqncia
Iniciaremos o exemplo com um nmero de classes igual a 6. Posteriormente
reduziremos para 5 e finalizaremos com 15 classes. O propsito baseado em uma verificao que vai possibilitar que visualizemos a realidade do fenmeno aonde certos grupos iro ento aparecer destacados.
(3) Clique no boto [Summary] e o resultado est apresentado na Figura 3.60:
-
Cap. 3 Anlise Exploratria de Dados
41
Figura 3.60 Tabela de Distribuio de Freqncia com 6 classes
da varivel rendimento de gros
Observao: Neste caso, de dados agrupados em classes, repare que os intervalos de classes so de tamanhos iguais.
(4) Clicar em Frequency Tables: hbridos (lado esquerdo, embaixo). Para a construo do histograma clique no boto [Histograms] da Figura 3.59. O
resultado est apresentado a seguir:
Histogram: Rendimento
Expected Normal
3864 4347 4830 5313 5796 6279 6762
X
-
Cap. 3 Anlise Exploratria de Dados
42
Histogram: Rendimento
Expected Normal
3622.50 4226.25 4830.00 5433.75 6037.50 6641.25
X
-
Cap. 3 Anlise Exploratria de Dados
43
(7) Na janela da Figura 3.59, na aba [Advanced], defina a opo User-specified categories e digite os intervalos das classes de cada categoria conforme apresentado na figura a seguir:
Figura 3.64 Janela onde so definidas as categorias
(8) Clique no boto [Summary] e o resultado est apresentado na Figura 3.65:
Figura 3.65 Tabela de distribuio de freqncia usando
categorias definidas pelo usurio
Observaes:
A varivel deve ser indicada por seu nmero, ou por sua sigla. No exemplo, vamos trabalhar com a varivel Rendimento que pode ser
identificada como v2 ou como RENDIMENTO.
-
Cap. 3 Anlise Exploratria de Dados
44
3.2.4. Polgono de Freqncias Mtiplos
Com esse tipo de grfico pode-se verificar mltiplas distribuies de
freqncia num mesmo grfico. Segue a seqncia de passos para a construo do mesmo.
(1) No menu [INSERT], escolha a opo [Add Variables], conforme apresentado na
Figura 3.66:
Figura 3.66 Criao de novas variveis
(2) Crie uma varivel aps a varivel Ferrugem, conforme definido na Figura 3.67
e clicar em OK:
Figura 3.67 Janela para a criao de novas variveis
(3) A nova varivel cCiclo corresponder a categorizao da varivel Ciclo, para isso basta posicionar o cursor na nova varivel e no menu [DATA], escolher a opo [Recode], conforme apresentado na Figura 3.68:
-
Cap. 3 Anlise Exploratria de Dados
45
Figura 3.68 Acesso janela para a categorizao da varivel Ciclo
(4) A categorizao da varivel Ciclo ser feita conforme apresentado na Figura
3.69: clicar OK.
Figura 3.69 Janela para a categorizao da varivel Ciclo
(5) No menu [Graphs], escolha a opo [Categorized Graphs], em seguida
[Histograms] e aparecer a janela apresentada na Figura 3.70:
-
Cap. 3 Anlise Exploratria de Dados
46
Figura 3.70 Janela para a especificao do grfico de colunas mltiplas
(6) Selecione as variveis, clicando no boto [Variables] e depois escolha a
varivel a ser estudada e a que ser a categoria, conforme apresentado na Figura 3.71:
Figura 3.71 Janela para seleo das variveis
(7) Na janela da Figura 3.70, especifique:
o tipo de grfico (Layout:) Overlaid
O resultado das especificaes est apresentado na Figura 3.72:
-
Cap. 3 Anlise Exploratria de Dados
47
Figura 3.72 Janela para a especificao do grfico de colunas mltiplas
(8) Clique no boto [OK] e o grfico resultante apresentado na Figura 3.73:
Figura 3.73 Grfico de colunas mltiplas, rendimento
versus tipo de ciclo (precoce ou tardio)
(9) Para o grfico de freqncias mltiplas, clique com o boto direito do mouse em cima do grfico e escolha a opo (Graph Properies (All Options)). Na janela que abrir, clique na aba [Plot: General], ative o Multiple Lines conforme apresentado na Figura 3.74:
-
Cap. 3 Anlise Exploratria de Dados
48
Figura 3.74 Opes grficas
(10) Na janela da Figura 3.74, clique na aba [Plot: Bars], desative o Display Bars conforme apresentado na Figura 3.75:
Figura 3.75 Opes grficas
(11) Clique no boto [OK] e o grfico resultante apresentado na Figura 3.76:
-
Cap. 3 Anlise Exploratria de Dados
49
Figura 3.76 Grfico polgono de freqncias mltiplas, rendimento
versus tipo de ciclo (precoce ou tardio)
3.2.5. O Modelo Normal
Uma distribuio de freqncia muito importante em estatstica surge quando os dados tendem a se concentrarem simetricamente em torno de um valor central. Essa distribuio conhecida como a distribuio normal ou
Gaussiana e sua forma a de sino.
A maioria dos fenmenos naturais tm esta distribuio, porm, apesar
desta forma ser a mais esperada, o aspecto terico e cabe ao pesquisador estud-lo.
O STATISTICA, por default, quando constri o histograma, tambm representa o modelo normal. Assim, o pesquisador pode ter uma idia se a sua amostra oriunda de uma distribuio aproximadamente normal.
Normal Probability Plot (O Grfico Normal de Probabilidades)
(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], a opo a
ser escolhida ser Frequency Table. Selecione a varivel Rendimento.
(2) Clique na aba [Descr.] conforme apresentado na Figura 3.77:
-
Cap. 3 Anlise Exploratria de Dados
50
Figura 3.77 Opes da tabela de freqncia
(3) Clique no boto [Normal probability plots (2)] e o resultado est apresentado na Figura 3.78:
Normal P-Plot: Rendimento
3800
4000
4200
4400
4600
4800
5000
5200
5400
5600
5800
6000
6200
6400
6600
Value
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
Expecte
d N
orm
al V
alu
e
Figura 3.78 Grfico Normal de Probabilidade da varivel Rendimento
Interpretao: como os pontos esto dispostos prximos linha reta,
conclui-se que a nossa amostra oriunda de uma distribuio aproximadamente normal.
-
Cap. 3 Anlise Exploratria de Dados
51
3.3. Estatsticas Descritivas
3.3.1. Medidas de Tendncia Central e Disperso
A varivel Rendimento adotada como exemplo para se obter as estatsticas descritivas.
(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.79, onde a opo a ser escolhida ser
Descriptive statistics:
Figura 3.79 Estatsticas bsicas e tabelas
(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.80:
Figura 3.80 Estatsticas descritivas
(3) Clique no boto [Variables] e selecione a varivel Rendimento.
(4) Clique na aba [Advanced] conforme apresentado na Figura 3.81:
-
Cap. 3 Anlise Exploratria de Dados
52
Figura 3.81 Opes de estatsticas descritivas
Na janela anterior, selecionou-se as estatsticas relevantes para o caso,
conforme apresentado a seguir:
Valid N - tamanho da amostra
Mean mdia
Sum soma
Median mediana
Standard Deviation - desvio padro
Variance varincia
Std. err. of mean - erro padro da mdia
Skewness assimetria
Minimum & maximum - mnimo e mximo
Lower & upper quartiles - primeiro quartil (Q1) e terceiro quartil (Q3)
Range amplitude
Quartile range - desvio interquartlico
(4) Clique no boto [Summary] e os resultados esto apresentados nas figuras 3.82 e 3.83:
Figura 3.82 Estatsticas descritivas
-
Cap. 3 Anlise Exploratria de Dados
53
Figura 3.83 Estatsticas descritivas
Outro exemplo:
Esta anlise ser baseada em um outro arquivo: bezerros.sta, que deve ser
criado conforme dados apresentados no Quadro 3.1.
Quadro 3.1 - Resultado experimental do peso e comprimento, para duas raas de bezerros
Raa Peso (Kg)
Comprimento (cm)
A 45 102
A 46 98
A 47 89
A 49 91
A 50 110
A 50 81
A 51 96
A 51 108
A 52 85
A 53 104
B 40 86
B 43 79
B 44 82
B 46 90
B 48 72
B 51 69
B 54 93
B 55 88
B 56 79
B 57 83
Como primeira anlise, sero determinadas as estatsticas bsicas da varivel Peso para cada tipo de raa de bezerros (A e B) apresentados no quadro anterior, para isso basta seguir o procedimento abaixo:
(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.84, onde a opo a ser escolhida ser
Breakdown & one-way ANOVA:
-
Cap. 3 Anlise Exploratria de Dados
54
Figura 3.84 Estatsticas bsicas e tabelas
(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.85:
Figura 3.85 Estatsticas descritivas por varivel agrupadora
(3) Clique no boto [Variables] e selecione a varivel Peso como dependente
(Dependent variables) e a varivel raa como agrupadora (Grouping variables), conforme apresentado na Figura 3.86.
Figura 3.86 Janela para seleo das variveis para a anlise
(4) Clique nos botes [OK] das duas figuras anteriores e aparecer a janela apresentada na Figura 3.87, aps o clique na aba [Descriptives]:
-
Cap. 3 Anlise Exploratria de Dados
55
Figura 3.87 Opes de estatsticas descritivas
Na janela anterior, selecionou-se as estatsticas relevantes para o caso,
sendo que a mdia (mean) vem automaticamente, conforme apresentado a seguir:
Standard Deviation - desvio padro
Median & quartiles mediana, primeiro quartil (Q1) e terceiro quartil (Q3)
(5) Clique no boto [Summary] e os resultados esto apresentados na Figura 3.88:
Figura 3.88 - Estatsticas descritivas da varivel Peso por tipo de raa
A anlise estatstica descritiva utilizada como uma descrio de um
conjunto de valores.
CUIDADO !!! A mdia e o desvio padro so afetados por valores extremos, altos ou baixos, e a estatstica torna-se irreal. A mdia (Mean) representar bem apenas em casos onde existe simetria, pois a mdia de um modelo assimtrico no reflete a realidade, e neste caso, a mediana (Median) torna-se uma melhor maneira de representao.
O desvio padro (Standard deviation) e o erro padro da mdia (Std. err. of mean) so medidas calculadas em torno da mdia e a inteno quantificar a variabilidade dos dados em torno da mdia. Por ser, ento, uma medida relativa, deve existir uma referncia para que faamos a interpretao. Um pesquisador
-
Cap. 3 Anlise Exploratria de Dados
56
com experincia j espera um determinado valor da variabilidade, caso contrrio, a anlise deve ser baseada em resultados de outros trabalhos.
Nos quartis temos a distribuio dividida em quatro partes iguais.
25% 25% 25% 25%
__________________________________________
Mnimo Q1 Mediana Q2 Mximo
3.3.2. A Mdia e o Desvio Padro sob um Modelo Normal
Nessa anlise, ser utilizada a ferramenta do STATISTICA de clculo de probabilidade, para isso basta seguir o procedimento abaixo:
(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer
a janela apresentada na Figura 3.89, onde a opo a ser escolhida ser Probability calculator:
Figura 3.89 Estatsticas bsicas e tabelas
(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.90:
Figura 3.90 Janela para clculo de probabilidade
(3) Na janela anterior, especificar:
Distribution: Z (Normal)
Two-tailed (bilateral) e Create Graph (criar o grfico)
-
Cap. 3 Anlise Exploratria de Dados
57
X: digite o valor 1
Na figura a seguir esto apresentados os resultados da especificao.
Figura 3.91 Janela para clculo de probabilidade
(4) Clique no boto [Compute], aparecer o valor da probabilidade (p) e os grficos das funes densidade e distribuio de probabilidade, apresentados respectivamente nas figuras 3.92 e 3.93:
Figura 3.92 Janela para clculo de probabilidade
Observao: Para ter acesso ao grfico necessrio sair da janela de clculo
de probabilidade, para isto clique no boto [Exit].
-
Cap. 3 Anlise Exploratria de Dados
58
Probability Density Function
y=normal(x;0;1)
-3 -2 -1 0 1 2 30.0
0.1
0.2
0.3
0.4
0.5
0.6
Probability Distribution Function
p=1-2*(1-inormal(0+abs(x-0);0;1))
-3 -2 -1 0 1 2 30.0
0.2
0.4
0.6
0.8
1.0
Figura 3.93 - Distribuio normal padro: mdia mais ou menos 1 desvio padro ( s1x )
Interpretao: Observar na Figura 3.81, que no intervalo s1x , temos
exatamente 68,2689% dos valores (p=0,682689).
(4) Repetir os itens (3) e (4) alterando o valor de X para 2 e 3. Os resultados esto apresentados nas figuras a seguir:
Probability Density Function
y=normal(x;0;1)
-3 -2 -1 0 1 2 30.0
0.1
0.2
0.3
0.4
0.5
0.6
Probability Distribution Function
p=1-2*(1-inormal(0+abs(x-0);0;1))
-3 -2 -1 0 1 2 30.0
0.2
0.4
0.6
0.8
1.0
Figura 3.94 - Distribuio normal padro: mdia mais ou menos 2 desvios padres ( s2x )
Interpretao: Temos agora, 95,45% dos valores (p=0,9545).
-
Cap. 3 Anlise Exploratria de Dados
59
Probability Density Function
y=normal(x;0;1)
-3 -2 -1 0 1 2 30.0
0.1
0.2
0.3
0.4
0.5
0.6
Probability Distribution Function
p=1-2*(1-inormal(0+abs(x-0);0;1))
-3 -2 -1 0 1 2 30.0
0.2
0.4
0.6
0.8
1.0
Figura 3.95 - Distribuio normal padro: mdia mais ou menos 3 desvios padres ( s3x )
Interpretao: Temos agora, 99,73% dos valores (p=0,9973).
3.3.3. Desenho Esquemtico (Box Plot)
O uso da mediana, quartis e extremos importante para obtermos informaes sobre a forma, valor representativo, disperso e valores discrepantes
da distribuio. A anlise ser realizada sobre o arquivo bezerros.sta.
(1) No menu [Graphs], escolha a opo [2D Graphs], em seguida [Box Plots] e aparecer a janela apresentada na Figura 3.96:
Figura 3.96 Janela para especificao do desenho esquemtico
-
Cap. 3 Anlise Exploratria de Dados
60
(2) Selecione a varivel, clicando no boto [Variables] e depois escolha a varivel Peso como a varivel a ser analisada (dependent variable), clique no boto [Ok] e
aparecer a janela apresentada na figura a seguir:
Figura 3.97 Janela para especificao do desenho esquemtico
(3) Clique no boto [OK] e o grfico resultante est apresentado na figura a seguir:
Box Plot (bezerros.sta 3v*20c)
Median = 50
25%-75%
= (46, 52.5)
Non-Outlier Range
= (40, 57)
Peso38
40
42
44
46
48
50
52
54
56
58
Figura 3.98 Desenho esquemtico em duas dimenses para o peso
Para saber se existe diferena na distribuio entre as duas raas, pode-se construir um grfico box plot categorizado, conforme apresentado no procedimento a seguir:
(4) Na janela da Figura 3.97, clique na aba [Advanced] e especifique:
-
Cap. 3 Anlise Exploratria de Dados
61
as variveis: independente (Independent variables): PESO e agrupadora (Grouping variables): RACA
o tipo de grfico (Graph Type): Box Wiskers e Regular
o intervalo de agrupamento (Grouping intervals): Integer mode
o ajuste (FIT): off (sem linha)
o ponto central (Middle Point): Value=Median e Style=Point
a caixa (Box): Value=Percentiles e Coefficient=25
o limite (Whisker): Value=Non Outlier Range e Coefficient=1 (default)
os pontos discrepantes (Outliers): Value=Outl & Extremes e Coefficient=1,5
O resultado das especificaes est apresentado na figura a seguir:
Figura 3.99 Janela para a especificao do desenho esquemtico
(5) Clique no boto [OK] e o grfico resultante est apresentado na figura a
seguir:
-
Cap. 3 Anlise Exploratria de Dados
62
Box Plot (bezerros.sta 3v*20c)
Median
25%-75%
Non-Outlier Range A B
Raca
38
40
42
44
46
48
50
52
54
56
58
Peso
Figura 3.100 Desenho esquemtico para as raas A e B
Se diminuirmos o coeficiente para 0,4 vo aparecer outliers no desenho, conforme apresentado na Figura 3.101. O padro do STATISTICA e de muitos livros de estatstica usar o critrio coeficiente (Coefficient) igual a 1,5, porm, o pesquisador tem autonomia para alter-lo.
Box Plot (bezerros.sta 3v*20c)
Median
25%-75%
Non-Outlier Range
OutliersA B
Raca
38
40
42
44
46
48
50
52
54
56
58
Peso
Figura 3.101 Desenho esquemtico para as raas A e B, usando o coeficiente igual a 0,4
3.3.4. Diagrama de Disperso
Para verificar o relacionamento entre duas variveis pode-se utilizar o diagrama de disperso. A anlise ser realizada sobre o arquivo hibridos.sta.
(1) No menu [Graphs], escolha a opo [2D Graphs], em seguida [Scatterplots] e aparecer a janela apresentada na Figura 3.102:
-
Cap. 3 Anlise Exploratria de Dados
63
Figura 3.102 Janela para especificao do diagrama de disperso
(2) Na janela da Figura anterior, especifique:
as variveis: X: Altura_planta e Y: Altura_espiga
o tipo de grfico (Graph Type): Regular
o ajuste (Linear fit): sem seleo
O resultado das especificaes est apresentado na figura a seguir:
Figura 3.103 Janela para a especificao do diagrama de disperso
(5) Clique no boto [OK] e o grfico resultante est apresentado na figura a seguir:
-
Cap. 3 Anlise Exploratria de Dados
64
Scatterplot (hibridos.sta 7v*32c)
230 240 250 260 270 280 290
Altura_planta
100
110
120
130
140
150
160
Altu
ra_espig
a
Figura 3.104 Diagrama de disperso para as variveis quantitativas, altura de espiga e
altura de planta.
Interpretao: de modo geral observamos uma tendncia linear nos dados, isto , quanto mais altas so as plantas, mais altas as alturas das espigas.
3.3.5. Coeficiente de Correlao
(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.105, onde a opo a ser escolhida ser
Correlation matrices:
Figura 3.105 Janela para o clculo do coeficiente de correlao
(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.106:
-
Cap. 3 Anlise Exploratria de Dados
65
Figura 3.106 Janela para seleo das variveis para a anlise
(3) Clique no boto [Two lists (rect. matrix)] e selecione a varivel Altura_planta (First variable list) e a varivel Altura_espiga (Second variable list (optional)), conforme apresentado na Figura 3.107.
Figura 3.107 Janela para seleo das variveis para a anlise
(4) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.108:
Figura 3.108 Janela para seleo das variveis para a anlise
(5) Clique no boto [Summary] da figura anterior e o valor da correlao estar apresentado na Figura 3.109:
-
Cap. 3 Anlise Exploratria de Dados
66
Figura 3.109 Valor do coeficiente de correlao
Interpretao: Podemos concluir que as variveis esto correlacionadas
positivamente, ou seja, quanto maior a altura da planta maior a altura da espiga.
3.3.6. Ajuste da Equao de uma Reta
O ajuste de um modelo linear simples da como resultado uma equao matemtica que descreve o relacionamento entre duas variveis. Para ajustar um
modelo linear simples entre a altura da planta e altura da espiga, basta repetir o procedimento do item 3.3.4. habilitando o ajuste linear (Linear fit), conforme apresentado na Figura 3.110.
Figura 3.110 Janela para a especificao do diagrama de disperso
(1) Clique no boto [OK] e o grfico resultante est apresentado na figura a seguir:
-
Cap. 3 Anlise Exploratria de Dados
67
Scatterplot (hibridos.sta 7v*32c)
Altura_espiga = -68.5699+0.753*x
230 240 250 260 270 280 290
Altura_planta
100
110
120
130
140
150
160
Altu
ra_espig
a
Figura 3.111 Valores observados e a equao de regresso ajustada
O modelo linear simples ajustado :
plantaAlturaespigalturaA _x753,05699,68_
Interpretao: o aumento de 1 cm no valor da altura da planta faz com que a altura da espiga aumente em 0,753 cm.
Anlise dos Resduos
Essa anlise feita para a varivel dependente e permite verificar se o
modelo ajustado adequado para os dados, se as varincias so homogneas, se existem valores discrepantes e se os erros podem ser assumidos como tendo aproximadamente uma distribuio normal. Os resduos consistem da diferena
entre os valores observados e os estimados pelo modelo ajustado, conforme equao a seguir:
iii YYe
onde:
ei = resduo da i-sima observao
Yi = valor observado da varivel resposta da i-sima observao
iY = valor estimado da varivel resposta da i-sima observao
O modelo ser considerado adequado se a distribuio dos resduos for
normalmente distribuda com mdia nula e varincia constante ( 2). Uma das formas de verificao atravs de anlise grfica, explorada neste tpico. Na
seqncia esto os passos para a anlise dos resduos.
(1) No menu [INSERT], escolha a opo [Add Variables], conforme apresentado na Figura 3.112:
-
Cap. 3 Anlise Exploratria de Dados
68
Figura 3.112 Criao de novas variveis
(2) Crie duas variveis aps a varivel Ferrugem, conforme apresentado na Figura 3.113:
Figura 3.113 Janela para a criao de novas variveis
(3) Defina as variveis, uma ser relativa aos valores estimados e a outra aos
resduos, conforme apresentado nas figuras 3.114 e 3.115, respectivamente:
-
Cap. 3 Anlise Exploratria de Dados
69
Figura 3.114 Janela para a criao dos valores estimados
Observao: na janela anterior foi inserido o modelo linear ajustado
(= -68.5699 + (0.753 * v4)), onde v4 corresponde varivel Altura_planta.
Figura 3.115 Janela para a criao dos resduos
Observao: na janela anterior foi inserido o clculo dos resduos (ei) (= v5 - v8)), onde v5 corresponde varivel Altura_espiga e v8 Altura_espiga_est
(valores estimados).
(4) Para verificar se os resduos so normalmente distribudos, construdo o Grfico normal de probabilidade dos resduos, conforme apresentado na Figura
3.116, cujo resultado est apresentado na Figura 3.117:
-
Cap. 3 Anlise Exploratria de Dados
70
Figura 3.116 Janela para a criao do grfico de probabilidade normal dos resduos
Normal Probability Plot of Altura_espiga_res (hibridos.sta 9v*32c)
-30 -20 -10 0 10 20 30
Observed Value
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
Expecte
d N
orm
al V
alu
e
Figura 3.117 Grfico de probabilidade normal dos resduos
Interpretao: o grfico anterior indica que os resduos possuem uma
distribuio normal.
(5) Para verificar se os resduos possuem varincia constante, construdo um grfico de disperso (scatterplot) entre os resduos (ei) e a varivel independente ou preditora (Altura_planta), conforme apresentado na Figura 3.118, cujo resultado est apresentado na Figura 3.119:
-
Cap. 3 Anlise Exploratria de Dados
71
Figura 3.118 Janela para a criao do grfico de disperso entre os resduos e a
varivel independente ou preditora (Altura_planta)
Scatterplot (hibridos.sta 9v*32c)
230 240 250 260 270 280 290
Altura_planta
-30
-20
-10
0
10
20
30
Altu
ra_espig
a_re
s
Figura 3.119 Grfico de disperso entre os resduos e a
varivel independente ou preditora (Altura_planta)
Interpretao: o grfico anterior indica que a distribuio dos resduos
aleatria, o modelo linear adequado e que a varincia dos erros pode ser considerada constante.
-
Cap. 4 Opes Grficas
72
(6) Para verificar se existe(m) valor(es) discrepante(s), construdo um grfico de disperso (scatterplot) entre os resduos padronizados e a varivel independente ou preditora (Altura_planta).
Os resduos (erros) padronizados so calculados como:
2/1
2 ne
ez
n
i i
ii
No Statistica criar uma nova varivel nominada de resduos^2, ou seja, no programa statistica temos: resduos^2 = v9**2.
V com o cursor em cima da varivel resduos^2, ou seja, em v10, clicar com o boto direito, selecionar statistics of block data blocks columns sums.
Na ltima linha na planilha dos dados vai aparecer o total 3818,922ou seja, a soma dos quadrados dos erros ou resduos.
Criar uma nova varivel nominada de resduos padronizados aps a varivel
resduos^2, na planilha de dados. Esta varivel assume os valores dados por: =v9/(sqrt(3818,922/(32-2))), onde sqrt a raz quadrada.
Criar um grfico de disperso com as variveis: resduos padronizados e altura_planta. Temos o resultado:
Como os resduos padronizados esto na faixa de -3 a 3, no temos a
presena de valores discrepantes (outliers).
(7) Para verificar a qualidade do ajuste do modelo linear podemos calcular o
coeficiente de determinao (R2). Matematicamente dado pelo coeficiente de correlao ao quadrado.
-
Cap. 4 Opes Grficas
73
Para o nosso exemplo temos: R2 = (0,65)2 = 0,4244. Em porcentagem vale 42,44%, ou seja, temos que a incluso da varivel altura de planta no modelo
explica 42,44% da altura de espiga.
-
Cap. 4 Opes Grficas
74
4. OPES GRFICAS
Para editar o aspecto geral do grfico, basta clicar duas vezes com o boto esquerdo do mouse sobre a rea de fora do grfico propriamente dita (rea onde esto as palavras de legenda, ttulo e as escalas). Uma outra forma clicar com o boto direito do mouse e escolher a opo Graph Properties (All Options), conforme apresentado na Figura 4.1:
Figura 4.1 Edio das propriedades do grfico
Ambos os procedimentos abrem a janela de edio geral do grfico apresentada na Figura 4.2, porm a segunda forma permite acessar outras opes, como por exemplo: copiar (Copy Graph) o grfico ou capturar uma regio
do mesmo (Screen Catcher) para um editor de texto, imprimir (Print Graph).
-
Cap. 4 Opes Grficas
75
Figura 4.2 Janela das propriedades do grfico
Com a janela apresentada na Figura 4.2 possvel, por exemplo:
- alterar as propriedades da janela (Graph Window), como a cor do fundo (Outside Background Color), a borda (Borders around the graph) e o tamanho (Size) do mesmo;
- alterar o layout (Graph Layout) como a disposio dos eixos (Axis positions);
- modificar ttulos e subttulos (Graph Titles/Text), como o tipo, tamanho e cor da letra;
- editar os eixos (Axis Scaling), como os valores incio (Minimum), fim (Maximum) e o passo (Step Size) da escala.
Existem outras opes que so especficas para cada tipo de grfico, como:
- Plot: Bar grfico de barras;
- Plot: Histogram histogramas;
- Plot: Pies grfico de setores;
- Plot: Point Labels grfico de disperso.
Uma forma mais rpida para alterar a formatao de um grfico clicar duas vezes em cima do que se quer mudar e alterar conforme padro do trabalho
que se est fazendo ou para traduzir textos para o Portugus, por exemplo. Para exemplificar, ser utilizado o grfico de colunas construdo para a varivel resistncia ferrugem reapresentado na Figura 4.1. A seguir, est uma
seqncia de procedimentos que visa exemplificar o potencial grfico que est disponvel no programa STATISTICA .
-
Cap. 4 Opes Grficas
76
Figura 4.3 Grfico de colunas da varivel resistncia ferrugem
(1) Clicar duas vezes em cima do ttulo do grfico, aparecer a janela apresentada na Figura 4.4:
Figura 4.4 Janela das propriedades do ttulo
(2) Alterar o ttulo, sua fonte, tamanho e cor, conforme seu padro adotado. Na
Figura 4.5 est um exemplo:
Figura 4.5 Janela das propriedades do ttulo
(3) Clicar duas vezes em cima do fundo do grfico, cujo padro a cor amarela claro, trocando-se a cor conforme apresentado na Figura 4.6:
-
Cap. 4 Opes Grficas
77
Figura 4.6 Alterao das propriedades do fundo
(4) Clicar duas vezes no ttulo do eixo que se deseja modificar, no exemplo o Y,
apresentado na Figura 4.7:
Figura 4.7 Janela das propriedades do eixo Y
(5) Alterar o ttulo do eixo, conforme apresentado na Figura 4.8:
-
Cap. 4 Opes Grficas
78
Figura 4.8 Janela das propriedades do eixo Y
(6) Para alterar o eixo X, basta alterar a caixa de texto da opo Axis na Figura 4.8 para X e modificar o ttulo deste, conforme apresentado na Figura 4.8:
Figura 4.9 Janela das propriedades do eixo Y
(7) Para modificar o preenchimento (rea) e a cor das barras, clicar com o boto
da direita em cima de uma das colunas, apresentado na Figura 4.10:
-
Cap. 4 Opes Grficas
79
Figura 4.10 Alterao do o preenchimento da coluna
(8) Escolher a cor e o padro atravs da janela apresentada na Figura 4.11:
Figura 4.11 Janela para escolha do preenchimento da coluna
(9) O grfico resultante est apresentado na Figura 4.12:
-
Cap. 4 Opes Grficas
80
Figura 4.12 Grfico de colunas da varivel resistncia ferrugem
Observao: Ressalta-se que foram exploradas somente algumas das opes grficas disponveis no programa STATISTICA , cabendo ao leitor explorar as
diversas formas de edio e possveis padronizaes de seus grficos.
-
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias
81
5. TESTES ESTATSTICOS PARA COMPARAO DE
DUAS MDIAS
5.1. Teste de Duas Mdias Populacionais com Varincias Desconhecidas
a) Dados pareados ou amostras dependentes
b) Dados no pareados ou amostras independentes
b.1) Varincias homogneas (iguais)
b.2) Varincias heterogneas (desiguais)
O mtodo de anlise selecionado para o teste-t deve ser previamente
estudado para que no implique em resultados falsos. Isto significa que precisamos testar a homogeneidade das varincias e verificar o planejamento da pesquisa, e baseado nesta concluso, aplicar ento o teste correto, que pode ser:
1. Amostras independentes - varincias homogneas - (T-Test for Independent Samples (Groups))
2. Amostras independentes - varincias heterogneas - (T-Test for Independent Samples (Groups) aplicado o t-test with separate variances estimates)
3. Amostras dependentes (Correlacionadas) - (T-Test for Dependent (Correlated) Samples)
5.1.1. Amostras Independentes com Varincias Iguais e Desconhecidas
Exemplo 1: Criar o arquivo solvente.sta conforme dados apresentados no Quadro 5.1.
Quadro 5.1 Resultados das absorbncias para dois tipos de solventes
Tratamento Repetio Absorbncia
1 1 0,6286
1 2 0,6143
1 3 0,5826
1 4 0,7498
1 5 0,6060
2 1 0,4748
2 2 0,4321
2 3 0,4309
2 4 0,5010
2 5 0,4094
(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 5.1, onde a opo a ser escolhida ser t-test, independent, by groups:
-
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias
82
Figura 5.1 Estatsticas bsicas e tabelas
(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 5.2:
Figura 5.2 Teste-t para amostras independentes
(3) Clique no boto [Variables] e selecione as variveis para a anlise (Grouping variable = Tratamento e Dependent variable = Absorbancia), conforme apresentado na Figura 5.3:
Figura 5.3 Janela de seleo das variveis para a anlise
(4) Clique no boto [OK] e aparecer a janela apresentada na Figura 5.4:
-
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias
83
Figura 5.4 Teste-t para amostras independentes
(5) Clique no boto [Summary] e o resultado est apresentado na Figura 5.5:
Figura 5.5 Resultado do teste-t para os dois solventes
Interpretao: Da figura anterior conclui-se que:
- Mdias amostrais: 1x =0,63626
2x =0,44964
- Desvios padro amostrais: s1=0,06563
s2=0,03725
1) Teste de homogeneidade de varincias
As hipteses a serem testadas esto apresentadas a seguir:
H0: 21 = 22 significa que h homogeneidade de varincia
Ha: 21 > 22 significa que no h homogeneidade de varincia
Tipo do teste: unilateral
Importante: O STATISTICA sempre faz um teste bilateral. No exemplo, sendo um teste unilateral, deve-se dividir o valor p por dois. Assim, p=0,2983/2=0,1491. Sendo assim, no se pode rejeitar a hiptese nula e conclui-
se que as varincias podem ser consideradas homogneas (p=0,1491).
-
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias
84
2) Teste de igualdade de mdias
As hipteses a serem testadas esto apresentadas a seguir:
H0: 1 = 2 significa que no h diferena entre as mdias de absorbncia com relao ao tipo de solvente
Ha: 1 2 significa que h diferena entre as mdias de absorbncia com relao ao tipo de solvente
Tipo do teste: bilateral
Da Figura 5.5, t=5,5301 (p=0,0006), ou seja, a probabilidade de t 5,5301
ocorrer devido ao acaso. Sendo assim, rejeita-se a hiptese nula e conclui-se que existe diferena estatisticamente significativa entre as mdias ao nvel de significncia de 0,06% (0,0006 x 100).
Outra maneira de calcular o valor p:
(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 5.6, onde a opo a ser escolhida ser Probability calculator:
Figura 5.6 Estatsticas bsicas e tabelas
(2) Selecione as seguintes opes:
Distribuition: t (Student);
Two-tailed (teste bilateral);
(1-Cumulative p);
t=5,530084 (valor encontrado pelo t-test for Independent Samples)
df = 8 (graus de liberdade)
(3) Clique no boto [Compute] e o resultado est apresentado na Figura 5.7:
-
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias
85
Figura 5.7 Janela para clculo do valor p do teste
Note que encontra-se o valor p exatamente igual ao descrito pelo T-Test for Independent Samples, conforme apresentado na Figura 5.5.
Diagrama de caixas (BOX PLOT )
(1) Na janela da Figura 5.4, para construir o diagrama de caixas, clique no boto [Box & whisker plot] e o grfico resultante est apresentado na Figura 5.8:
Figura 5.8 Diagrama de caixas para os dois tipos de solventes
Interpretao: Pela Figura 5.8, pode-se considerar que h homogeneidade de varincia e que a mdia da absorbncia no solvente 1 maior com relao ao
solvente 2.
Grfico normal de probabilidades por tratamento
(1) Na janela da Figura 5.4, clique na aba [Advanced], aparecer a janela apresentada na Figura 5.9:
-
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias
86
Figura 5.9 Teste-t para amostras independentes
(2) Na janela da Figura 5.9, clique no boto [Categorized normal plot] e o grfico
resultante est apresentado na Figura 5.10:
Figura 5.10 Grfico normal de probabilidades por tratamento
Exemplo 2: Criar o arquivo tomate.sta conforme dados apresentados no
Quadro 5.2.
Quadro 5.2 Resultados de produo de dois tipos de adubos em tomateiro
Tratamento Repetio Produo
1 1 29,9
1 2 11,4
1 3 25,3
1 4 16,5
1 5 21,1
2 1 26,6
2 2 23,7
2 3 28,5
2 4 14,2
2 5 17,9
2 6 24,3
-
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias
87
Fonte: Box, Hunter & Hunter
(1) Repetir os cinco primeiros passos do Exemplo 1, porm selecionando as seguintes variveis para a anlise: Grouping variable = Tratamento e Dependent variable = Producao. O resultado do teste est apresentado na Figura 5.11:
Figura 5.11 Resultado do teste-t para a produo dos dois diferentes tipos de adubos
1) Teste de homogeneidade de varincias
As hipteses a serem testadas esto apresentadas a seguir:
H0: 21 = 22 significa que h homogeneidade de varincia
Ha: 21 > 22 significa que no h homogeneidade de varincia
Tipo do teste: unilateral
Da Figura 5.11, F=1,7792 (p=0,5400/2=0,2700) significa que no se pode rejeitar a hiptese nula, ou seja, as varincias podem ser consideradas homogneas.
2) Teste de igualdade de mdias
As hipteses a serem testadas esto apresentadas a seguir:
H0: 1 = 2 significa que no h diferena entre as mdias de produo
com relao ao tipo de adubo
Ha: 2 > 1 significa que a mdia da produo do adubo tipo 1 menor
que a mdia da produo do adubo tipo 2
Tipo do teste: unilateral
Da Figura 5.5, F=3,1046 (p=0,6677/2=0,3339) significa que no se pode rejeitar a hiptese nula, ou seja, no existe diferena estatisticamente
significativa entre as mdias.
5.1.2. Amostras Independentes com Varincias Desiguais e Desconhecidas
Exemplo 3: Criar o arquivo variedade.sta conforme dados apresentados no
Quadro 5.3.
-
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias
88
Quadro 5.3 Resultados do rendimento em kg/ha de duas variedades de milho
Varied_A Varied_B
1300 1800
1350 1600
1250 1900
1400 1850
1200 1750
2500
(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 5.12, onde a opo a ser escolhida ser t-test,
independent, by variables:
Figura 5.12 Estatsticas bsicas e tabelas
(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 5.13:
Figura 5.13 Teste-t para amostras independentes
(3) Clique no boto [Variables] e selecione as variveis para a anlise (First variable (group) list - Varied_A e Second variable (group) list - Varied_B), conforme apresentado na Figura 5.14:
-
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias
89
Figura 5.14 Janela de seleo das variveis para a anlise
(4) Clique no boto [OK] e aparecer a janela apresentada na Figura 5.15:
Figura 5.15 Teste-t para amostras independentes
(5) Clique no boto [Summary] e o resultado est apresentado na Figura 5.16:
Figura 5.16 Resultado do teste-t para as duas variedades
1) Teste de homogeneidade de varincias
As hipteses a serem testadas esto apresentadas a seguir:
H0: 2A = 2B significa que h homogeneidade de varincia
Ha: 2B > 2A significa que no h homogeneidade de varincia
Tipo do teste: unilateral
-
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias
90
Da Figura 5.16, F=15,5200 (p=0,0200/2=0,0100) significa que rejeita-se a hiptese nula, ou seja, as varincias no podem ser consideradas homogneas.
Neste caso, como as varincias so heterogneas, o teste-t deve ser calculado com varincias separadas.
(6) Na janela da Figura 5.15, clique na aba [Options] e selecione a opo t-test with separate variance estimates, conforme apresentado na Figura 5.17:
Figura 5.17 Teste-t para amostras independentes
(7) Clique no boto [Summary] e o resultado est apresentado na Figura 5.18:
Figura 5.18 Resultado do teste-t para as duas variedades com varincias desiguais
2) Teste de igualdade de mdias
As hipteses a serem testadas esto apresentadas a seguir:
H0: A = B significa que no h diferena entre as mdias de produo
com relao ao tipo de variedade
Ha: A B significa que h diferena entre as mdias de produo com
relao ao tipo de variedade
Tipo do teste: bilateral
Da Figura 5.18, t=-4,5464 (p=0,0043), ou seja, rejeita-se a hiptese nula e
conclui-se que existe diferena estatisticamente significativa entre as mdias de produo com relao ao tipo de variedade.
(8) Na janela da Figura 5.15, para construir o diagrama de caixas, clique no boto [Box & whisker plot] e o grfico resultante est apresentado na Figura 5.19:
-
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias
91
Figura 5.19 Diagrama de caixas para as duas variedades de milho
Interpretao: Pela Figura 5.19, visvel que a varincia da Variedade A menor que a da Variedade B e que a mdia na Variedade B maior com relao
Variedade A.
5.1.3. Amostras Dependentes (Dados Pareados)
Exemplo 4: Criar o arquivo solas.sta conforme dados apresentados no Quadro 5.4.
Quadro 5.4 Resultados do desgaste de solas de sapatos, confeccionadas com dois tipos diferentes de materiais
Criana Material_A Material_B
1 13,2 14,0
2 8,2 8,8
3 10,9 11,2
4 14,3 14,2
5 10,7 11,8
6 6,6 6,4
7 9,5 9,8
8 10,8 11,3
9 8,8 9,3
10 13,3 13,6
Neste experimento, cada criana usou um tipo de material diferente de
solado em cada um de seus sapatos, caracterizando a dependncia entre as medidas, pois numa mesma criana so realizadas duas medidas de desgaste nos dois tipos de materiais.
As hipteses a serem testadas esto apresentadas a seguir:
H0: A = B significa que no h diferena entre as mdias de desgaste
com relao ao tipo de material
-
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias
92
Ha: ]B > A significa que a mdia de desgaste do material A menor que a mdia de desgaste do material B
Tipo do teste: unilateral
(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer
a janela apresentada na Figura 5.20, onde a opo a ser escolhida ser t-test, dependent samples:
Figura 5.20 Estatsticas bsicas e tabelas
(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 5.21:
Figura 5.21 Teste-t para amostras dependentes
(3) Clique no boto [Variables] e selecione as variveis para a anlise (First variable list - Material_A e Second variable list (optional) - Material_B), conforme apresentado na Figura 5.22:
-
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias
93
Figura 5.22 Janela de seleo das variveis para a anlise
(4) Clique no boto [OK] e aparecer a janela apresentada na Figura 5.23:
Figura 5.23 Teste-t para amostras dependentes
(5) Clique no boto [Summary] e o resultado est apresentado na Figura 5.24:
Figura 5.24 Resultado do teste-t para amostras dependentes
Concluso: Da Figura 5.24, t=-3,3489 (p=0,0085/2=0,0043), ou seja,
rejeita-se a hiptese nula e conclui-se que a mdia de desgaste do material A menor que a mdia de desgaste do material B.
-
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias
94
Selecionando o mtodo incorreto
(1) Refazer o teste anterior da mesma forma que no Exemplo 3, escolhendo a opo para amostras independentes (t-test, independent, by variables). Selecione as variveis conforme mostrado na Figura 5.25:
Figura 5.25 Teste-t para amostras independentes
(2) Clique no boto [Summary] e o resultado est apresentado na Figura 5.26:
Figura 5.26 Resultado do teste-t para amostras independentes
1) Teste de homogeneidade de varincias
Da Figura 5.26, F=1,0555 (p=0,9372/2=0,4686) significa que no se pode
rejeitar a hiptese nula, ou seja, as varincias podem ser consideradas homogneas.
2) Teste de igualdade de mdias
Da Figura 5.26, t=-0,3689 (p=0,7165/2=0,3582) significa que no se pode rejeitar a hiptese nula, ou seja, a mdia de desgaste do material A no menor
que a mdia de desgaste do material B.
Sendo assim, no se rejeita a hiptese nula, s que, ESTA CONCLUSO NO VERDADEIRA. Por isto, estudamos anteriormente o delineamento da pesquisa.
-
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias
95
A seguir, o grfico mostra como as mdias esto prximas, pois aqui no foi retirado o efeito de meninos.
(3) Na janela da Figura 5.25, para construir o diagrama de caixas, clique no boto [Box & whisker plot] e o grfico resultante est apresentado na Figura 5.27:
Figura 5.27 Diagrama de caixas para os dois tipos de materiais
5.1.4. Intervalo de Confiana para a Diferena de Duas Mdias no Caso de Dados Pareados
(1) Criar uma nova varivel (DifB_A) no arquivo solas.sta, que representa a
diferena entre os valores de desgastes dos dois materiais. Para isso, clique com o boto da direita em cima da varivel Material_B, selecione a opo [Add variable]
e defina a nova varivel conforme apresentado na Figura 5.28:
Figura 5.28 Janela de especificao da varivel DifB_A
-
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias
96
(2) Clique no boto [OK] e se aparecer a expresso Expression OK. Recalculate the variable now? clique no boto [SIM]. O arquivo resultante est apresentado no Quadro 5.5:
Quadro 5.5 Resultados do desgaste de solas de sapatos, confeccionadas com dois tipos diferentes de materiais
Criana Material_A Material_B DifB_A
1 13,2 14,0 0,8
2 8,2 8,8 0,6
3 10,9 11,2 0,3
4 14,3 14,2 -0,1
5 10,7 11,8 1,1
6 6,6 6,4 -0,2
7 9,5 9,8 0,3
8 10,8 11,3 0,5
9 8,8 9,3 0,5
10 13,3 13,6 0,3
(3) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 5.29, onde a opo a ser escolhida ser
Descriptive statistics:
Figura 5.29 Estatsticas bsicas e tabelas
(4) Clique no boto [OK], selecione a nova varivel criada (DifB_A) clicando no boto [Variables] e na aba [Advanced] selecione as opes conforme apresentado na Figura 5.30:
-
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias
97
Figura 5.30 Estatsticas descritivas
(5) Clique no boto [Summary] e o resultado est apresentado na Figura 5.31:
Figura 5.31 Resultado do intervalo de confiana para a varivel DifB_A
Interpretao: Da Figura 5.31 estimasse que a verdadeira diferena mdia
do desgaste das solas entre os d