Apostila Statistica 6.0

of 133 /133
UNIVERSIDADE FEDERAL DE SANTA CATARINA CENTRO TECNOLÓGICO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA ANÁLISE ESTATÍSTICA USANDO O STATISTICA ® 6.0 Prof. Paulo José Ogliari, Dr. Eng. Juliano Anderson Pacheco, MSc. FLORIANÓPOLIS SC JUNHO DE 2011

Embed Size (px)

Transcript of Apostila Statistica 6.0

  • UNIVERSIDADE FEDERAL DE SANTA CATARINA

    CENTRO TECNOLGICO

    DEPARTAMENTO DE INFORMTICA E ESTATSTICA

    ANLISE ESTATSTICA USANDO O

    STATISTICA

    6.0

    Prof. Paulo Jos Ogliari, Dr. Eng. Juliano Anderson Pacheco, MSc.

    FLORIANPOLIS SC JUNHO DE 2011

  • 2

    SUMRIO

    1. INTRODUO ..................................................................................................................... 3

    2. GERENCIAMENTO DE ARQUIVOS ............................................................................... 5

    2.1. CRIAR UM NOVO ARQUIVO ................................................................................................ 6

    2.2. IMPORTAO DE ARQUIVOS DO EXCEL ........................................................................... 10

    3. ANLISE EXPLORATRIA DE DADOS ..................................................................... 13

    3.1. DISTRIBUIO DE FREQNCIA DE VARIVEIS QUALITATIVAS ...................................... 13

    3.1.1. Unidimensional ....................................................................................................... 13

    3.1.2. Bidimensional ......................................................................................................... 23

    3.2. DISTRIBUIO DE FREQNCIA DE VARIVEIS QUANTITATIVAS .................................... 35

    3.2.1. Tabela de Distribuio de Freqncia para Varivel Quantitativa Discreta ........ 36

    3.2.2. Representaes Grficas de Variveis Quantitativas Discretas ............................ 38

    3.2.3. Dados Agrupados em Classes ................................................................................. 40

    3.2.4. O Modelo Normal ................................................................................................... 44

    3.3. ESTATSTICAS DESCRITIVAS ........................................................................................... 51

    3.3.1. Medidas de Tendncia Central e Disperso ........................................................... 51

    3.3.2. A Mdia e o Desvio Padro sob um Modelo Normal ............................................. 56

    3.3.3. Desenho Esquemtico (Box Plot) ........................................................................... 59

    3.3.4. Diagrama de Disperso .......................................................................................... 62

    3.3.5. Coeficiente de Correlao ...................................................................................... 64

    3.3.6. Ajuste da Equao de uma Reta ............................................................................. 66

    4. OPES GRFICAS ........................................................................................................ 74

    5. TESTES ESTATSTICOS PARA COMPARAO DE DUAS MDIAS ................... 81

    5.1. TESTE DE DUAS MDIAS POPULACIONAIS COM VARINCIAS DESCONHECIDAS .............. 81

    5.1.1. Amostras Independentes com Varincias Iguais e Desconhecidas ........................ 81

    5.1.2. Amostras Independentes com Varincias Desiguais e Desconhecidas .................. 87

    5.1.3. Amostras Dependentes (Dados Pareados) ............................................................. 91

    5.1.4. Intervalo de Confiana para a Diferena de Duas Mdias no Caso de Dados

    Pareados ..................................................................................................................................... 95

    6. TESTE PARA DUAS OU MAIS PROPORES .......................................................... 98

    6.1. O TESTE DO QUI-QUADRADO (CHI-SQUARE) ............................................................... 98

    7. ANLISE DE VARINCIA ............................................................................................ 117

    7.1. DELINEAMENTO INTEIRAMENTE CASUALIZADO ............................................................ 118

    7.2. EXEMPLO ...................................................................................................................... 118

    7.3. ANLISE ESTATSTICA .................................................................................................. 120

    7.3.1. Anlise de Varincia ............................................................................................. 122

    7.3.2. Comparaes Mltiplas de Mdias ...................................................................... 124

    7.3.3. Contrastes Ortogonais .......................................................................................... 126

    7.3.4. Diagnstico do Modelo ......................................................................................... 129

  • Cap. 1 Introduo

    3

    1. INTRODUO

    O software STATISTICA um programa integrado para gerenciar Anlise Estatstica e Bases de Dados, caracterizando uma ampla seleo do processo

    analtico, do bsico ao avanado, para as mais diversas reas - Cincias Biomdicas, Biolgicas, Engenharias, Cincias Sociais, Agrrias - permitindo a realizao de Data Mining (Minerao de Dados).

    O sistema no inclui somente procedimentos estatsticos e grficos gerais, mas, tambm, mdulos especializados (Anlise de Regresso, Anlise de

    Sobrevivncia, Sries Temporais, Anlise Fatorial, Anlise Discriminante e diversos outros mdulos). Dificilmente, o usurio necessitar de todos os mdulos oferecidos pelo STATISTICA para a anlise do seu trabalho, e ser, a partir de sua criatividade e conhecimento terico, que chegar as respostas dos seus objetivos.

    Neste trabalho, foram desenvolvidos trs assuntos: a) Anlise exploratria de dados, b) Alguns testes de hipteses sobre mdias e propores e c) Anlise de varincia com um fator (one-way ANOVA).

    Esta apostila foi elaborada com o propsito de auxiliar os estudantes de graduao e ps-graduao e demais interessados, na iniciao do uso de um

    programa estatstico. Escolheu-se o programa STATISTICA, por apresentar uma plataforma interativa com o usurio e, tambm, por ser ele dos programas mais

    completos da rea existente na atualidade.

    Pede-se que qualquer problema encontrado na apostila, entrar em contato preferencialmente para [email protected] ou para [email protected]

    mailto:[email protected]:[email protected]

  • Cap. 1 Introduo

    4

    Os captulos 2 e 3 sero baseados no seguinte exemplo:

    Quadro 1.1 - Resultados de um experimento de competio de hbridos de milho para a regio preferencial I, com altitudes abaixo de 800m - safra: 1987/1988

    Cultivar Rendimento mdio (kg/ha)

    Ciclo (dias)

    Altura planta (cm)

    Altura espiga (cm)

    Tipo de gro Ferrugem*

    (escala)

    1 6388 65 242 103 dentado r

    2 6166 65 258 134 semi-dentado r

    3 6047 65 240 104 semi-dentado s

    4 5889 66 243 108 semi-dentado s

    5 5823 69 257 128 dentado ms

    6 5513 68 241 108 semi-dentado s

    7 5202 64 235 108 dentado r

    8 5172 68 240 103 dentado s

    9 5166 69 253 123 dentado ms

    10 4975 70 250 117 semi-dentado ms

    11 4778 70 242 114 dentado mr

    12 4680 66 245 111 semi-duro ms

    13 4660 69 239 110 semi-duro mr

    14 5403 73 264 138 dentado ms

    15 5117 76 282 149 dentado mr

    16 5063 72 274 151 dentado r

    17 4993 71 279 134 semi-dentado r

    18 4980 72 274 140 dentado ms

    19 4770 73 244 140 dentado r

    20 4685 71 265 139 semi-duro mr

    21 4614 73 248 110 semi-dentado r

    22 4552 73 265 128 semi-dentado r

    23 3973 74 261 124 semi-dentado mr

    24 4550 71 259 129 semi-duro s

    25 5056 64 252 104 semi-duro mr

    26 4500 70 271 109 dentado ms

    27 4760 68 243 137 semi-duro r

    28 5110 66 252 141 semi-dentado ms

    29 4960 70 262 120 dentado ms

    30 4769 73 260 118 dentado r

    31 4849 74 250 119 semi-dentado s

    32 5230 71 255 138 semi-duro s

    Fonte: Boletim Tcnico, nmero 39, EMPASC S. A.

    * r = resistente, mr = moderadamente resistente, s = susceptvel e ms = moderadamente susceptvel.

  • Cap. 2 Gerenciamento de Arquivos

    5

    2. GERENCIAMENTO DE ARQUIVOS

    O STATISTICA trabalha com variveis categorizadas, qualitativas e quantitativas, permitindo a formao de grupos que sero analisados. Ou seja,

    utiliza uma tcnica mais apropriada para resumir as informaes, adaptando qualquer tipo de varivel ao caso estudado e armazena as variveis mediante notao dupla, isto , utiliza os valores da varivel de forma categorizada (texto) e

    na forma de nmeros, que podem ser valores codificados (numricos).

    Por exemplo, a varivel Ferrugem, apresentada no Quadro 1.1, foi dividida

    em categorias (quatro nveis): resistente (r), susceptvel (s), moderadamente susceptvel (ms) e moderadamente resistente (mr). O STATISTICA usar os cdigos numricos internamente, mas o usurio pode sempre referenciar a

    ferrugem usando os textos respectivos, conforme apresentado na figura 2.1.

    Figura 2.1 Administrador de valores

    Feita a coleta de dados, atravs de censos, de levantamentos por amostragem ou de experimentos, geralmente estes dados se apresentam de

    maneira desorganizada, ainda sem valor informativo sobre o fenmeno em estudo. Portanto, os mesmos devem ser organizados para possibilitarem a anlise.

    A matriz de dados pode ser criada ou importada. A seguir esto os procedimentos para criar um novo arquivo e importar uma planilha do Excel.

  • Cap. 2 Gerenciamento de Arquivos

    6

    2.1. Criar um novo arquivo

    (1) Abra o programa STATISTICA;

    (2) Surgir um arquivo de dados vazio com 10 colunas (ou variveis) e 10 linhas (ou casos), conforme apresentado na Figura 2.2:

    Figura 2.2 Arquivo de dados inicial

    (3) Geralmente necessrio alterar esse arquivo inicial, com relao ao nmero de variveis ou de casos para permitir a digitao dos dados coletados

    (4) Esse arquivo ser alterado para possibilitar a entrada dos dados apresentados

    no Quadro 1.1, logo necessrio excluir 3 variveis e incluir mais 22 casos, gerando uma tabela com 7 colunas e 32 linhas

    (5) Para excluir as 3 colunas, selecione as trs ltimas colunas, clique com o boto direito do mouse e escolha a opo [DELETE VARIABLES], proceder conforme apresentado nas Figuras 2.3 e 2.4:

  • Cap. 2 Gerenciamento de Arquivos

    7

    Figura 2.3 Procedimento para excluir variveis

    Figura 2.4 Definio das variveis a excluir

    (6) Para incluir os 22 casos, selecione a ltima linha, clique com o boto direito do mouse e escolha a opo [ADD CASES], proceder conforme apresentado nas

    Figuras 2.5 e 2.6:

    Figura 2.5 Procedimento para incluir casos

  • Cap. 2 Gerenciamento de Arquivos

    8

    Figura 2.6 Definio do nmero de casos a incluir

    (7) o arquivo deve ser salvo, para isso no menu [FILE], escolha a opo [SAVE] e defina o nome do arquivo, conforme apresentado na Figura 2.7:

    Figura 2.7 Gravao do arquivo criado

    (8) Neste momento dispomos de uma tabela possvel para inserir os dados

    apresentados no Quadro 1.1, mas primeiramente necessrio definir os nomes das variveis e os tipo de dados a serem inseridos

    (9) Clique duas vezes em cima da primeira coluna e aparecer a janela

    apresentada na Figura 2.8:

    Figura 2.8 Definio das variveis

  • Cap. 2 Gerenciamento de Arquivos

    9

    onde:

    Name: corresponde ao nome da varivel

    Type: corresponde ao tipo da varivel, onde os valores possveis so: Double (valores com decimais), Integer (valores inteiros), Text (texto) e Byte (valores inteiros entre 0 e 255)

    Display format: formato de apresentao dos dados

    Observao: Para acessar a janela da Figura 2.1 e digitar os respectivos textos da varivel Ferrugem, basta clicar no boto [Text Labels] da janela apresentada na Figura 2.8.

    (10) No Quadro 2.1 esto as possveis definies das 7 variveis apresentadas no Quadro 1.1:

    Quadro 2.1. Definies das variveis

    Varivel Name Type Display Format

    Cultivar Cultivar Byte Number

    Rendimento mdio (kg/ h) Rendimento Integer Number

    Ciclo (dias) Ciclo Byte Number

    Altura planta (cm) Altura_planta Integer Number

    Altura espiga (cm) Altura_espiga Integer Number

    Tipo de gro Tipo_grao Text -

    Ferrugem (escala) Ferrugem Text -

    (11) Agora possvel digitar os dados, conforme apresentado na Figura 2.9:

    Figura 2.9 Digitao dos dados do Quadro 1

    (12) Aps a digitao dos dados, salvar novamente o arquivo.

  • Cap. 2 Gerenciamento de Arquivos

    10

    2.2. Importao de Arquivos do Excel

    Existem duas maneiras de importar arquivos no formato Excel. A primeira que ser descrita ideal no caso de planilhas pequenas, pois fcil selecionar a matriz de dados usando somente o mouse. No caso de grandes arquivos, utilize a segunda opo.

    1 Opo:

    (1) Abra o aplicativo Excel

    (2) Carregue o arquivo de dados que se deseja transferir para o STATISTICA e copie para a rea de transferncia a regio da planilha que contm os dados,

    conforme apresentado na Figura 2.10:

    Figura 2.10 Cpia dos dados para a rea de transferncia

    (3) No STATISTICA

    , crie um novo arquivo com o mesmo tamanho que a regio

    dos dados no Excel (mesmo nmero de colunas e linhas), o item 2.1 ensina como criar um novo arquivo

    (4) Criado o arquivo, selecione a primeira clula cole os dados da rea de

    transferncia, atravs do menu [EDIT], opo [PASTE] e o resultado est apresentado na Figura 2.11:

  • Cap. 2 Gerenciamento de Arquivos

    11

    Figura 2.11 Resultado da cpia dos dados da planilha do Excel

    (5) Salve o novo arquivo criado, atravs desse processo.

    2 Opo:

    (1) Abrir o programa STATISTICA;

    (2) No menu [FILE], escolher a opo [Open], aparecer a janela apresentada na

    Figura 2.12, onde o formato a ser escolhido ser Excel files (*.xls)

    Figura 2.12 Importao de arquivos

    (3) Selecione a planilha a ser importada

    (4) Ser apresentada a janela mostrada na Figura 2.13, que representa um

    resumo da tabela de dados a ser importada;

  • Cap. 2 Gerenciamento de Arquivos

    12

    Figura 2.13 Resumo da planilha a ser importada

    onde:

    Range Columns: representa o nmero de variveis existentes na tabela de dados

    Range Rows: representa o nmero de casos existentes na tabela de dados

    Get case names from first column: atribui nomes aos casos conforme a primeira coluna da tabela de dados

    Get variable names from first row: atribui nomes s variveis conforme a primeira linha da tabela de dados

    Import cell formatting: importa a tabela mantendo a formatao existente no Excel

    (5) O resumo deve ser verificado quanto ao nmero de variveis e casos existentes

    na tabela de dados, se o mesmo diferir dos valores corretos, deve-se fazer o seguinte processo: copiar a rea dos dados, juntamente com os nomes das variveis e casos se existirem, para um novo arquivo do Excel, salvar e repetir todos os itens anteriores

    (6) Se o quadro resumo estiver correto, prossiga e o resultado est apresentado

    na Figura 2.14:

    Figura 2.14 Resultado da importao da planilha do Excel

    (7) salve o novo arquivo criado, atravs desse processo.

  • Cap. 3 Anlise Exploratria de Dados

    13

    3. ANLISE EXPLORATRIA DE DADOS

    Os dados recolhidos que devem ser estudados, ou seja, organizados, sumarizados e descritos, sero pelo STATISTICA, explorados. Isto , procuraremos tirar o mximo de informaes de um conjunto de dados e, principalmente, tentar indicar um modelo que ser utilizado em uma fase posterior da anlise, a Inferncia Estatstica.

    3.1. Distribuio de Freqncia de Variveis Qualitativas

    O estudo de distribuies de freqncias nos permite conhecer a forma, ou

    seja, a maneira de como os valores de uma varivel se comportam, e assim, podemos ter uma boa idia global dos valores e da sua distribuio.

    Varivel qualitativa aquela que apresenta seu resultado em forma de

    uma qualidade ou um atributo. Podem ser ordinais, quando existe uma ordem nos possveis resultados da mesma ou nominais, quando no

    existe uma ordenao.

    3.1.1. Unidimensional

    Distribuio da freqncia de uma nica varivel.

    Nesta seo, vamos construir a Tabela de Distribuio de Freqncia

    Unidimensional e o Grfico de Barras para a varivel qualitativa ordinal resistncia ferrugem. A ordem o grau de ataque da doena.

    3.1.1.1. Tabela de Distribuio de Freqncia Unidimensional

    Exemplo: Anlise da distribuio de freqncia da varivel resistncia ferrugem.

    (1) Abra o programa STATISTICA e o arquivo hibridos.sta

    (2) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.1, onde a opo a ser escolhida ser Frequency Table:

  • Cap. 3 Anlise Exploratria de Dados

    14

    Figura 3.1 Estatsticas bsicas e tabelas

    (3) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.2:

    Figura 3.2 Tabelas de freqncia

    (4) Clique no boto [Variables] e selecione a varivel Ferrugem, conforme apresentado na Figura 3.3. Se for mantido o boto esquerdo do mouse apertado,

    com o movimento de subida e descida possvel selecionar vrias variveis ao mesmo tempo, para pular alguma, mantenha apertado a tecla CTRL do teclado e com o boto esquerdo do mouse clique na varivel de interesse:

    Figura 3.3. Janela para seleo das variveis para a anlise

    (5) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.4:

  • Cap. 3 Anlise Exploratria de Dados

    15

    Figura 3.4 Tabela de freqncia com a varivel ferrugem selecionada

    (6) Clique na aba [Options] e defina as opes conforme apresentado na figura

    3.5. Para desativar, basta clicar na opo correspondente, retirando assim, o smbolo . Para ativar, basta clicar na opo ainda no selecionada:

    Figura 3.5 Opes da tabela de freqncia

    (7) Clique no boto [Summary] e o resultado apresentado na Figura 3.6:

    Figura 3.6 - Tabela de Distribuio de Freqncia Unidimensional

    da varivel resistncia ferrugem.

  • Cap. 3 Anlise Exploratria de Dados

    16

    Concluso: a freqncia (ocorrncia) da varivel resistncia ferrugem na anlise de 32 hbridos :

    10 resistentes (r) ferrugem = 31,250%

    7 susceptveis (s) ferrugem = 21,875%

    9 moderadamente susceptveis (ms) ferrugem = 28,125%

    6 moderadamente resistentes (mr) ferrugem = 18,750%

    Importante: a forma como o STATISTICA organiza as janelas durante a anlise a seguinte:

    h o arquivo de dados com extenso .sta

    os resultados so gerados no workbook, estes podem ser gravados num arquivo com extenso .stw. No caso da Figura 3.6 foi gravado o arquivo

    Capitulo3.stw.

    aps os resultados serem apresentados no workbook, a janela da anlise minimizada no canto inferior esquerdo. No caso da Figura 3.6 v-se que a anlise atual Frequency Tables.

    3.1.1.2. Tabela de Distribuio de Freqncia Unidimensional com fator estratificado

    Conforme pode ser visto direita embaixo da janela apresentada na Figura

    3.5, existe o boto [Select Cases S] que permite filtrar os casos com base nas variveis disponveis. Abaixo esto dois exemplos da aplicao desse

    procedimento de filtragem.

    (1) Clique no boto [Select Cases S] da janela apresentada na Figura 3.5. Aparecer a janela apresentada na Figura 3.7:

    Figura 3.7 Janela que permite especificar as condies

  • Cap. 3 Anlise Exploratria de Dados

    17

    (2) Como demonstrado na Figura 3.7, sero includos somente os casos que a varivel v6 (Tipo de gro) assume o valor dentado, que significar que a tabela

    construda mostrar somente a distribuio da resistncia ferrugem para tipo de gro dentados

    (3) Para isso, clique em Specific, selected by: By Expression, digite a condio: v6=dentado e clique no boto [OK]

    (4) Ao voltar para a janela da figura 3.5, clique novamente no boto [Summary] e

    o resultado est apresentado na Figura 3.8:

    Figura 3.8 Resultado da distribuio da freqncia da varivel resistncia

    ferrugem para o tipo de gro dentado

    (6) Para realizar um estudo para hbridos de ciclo curto, hbridos com ciclo da cultura entre 64 e 70 dias, altere a condio de filtragem conforme apresentado

    na Figura 3.9, onde a condio : v3>=64 and v3

  • Cap. 3 Anlise Exploratria de Dados

    18

    Figura 3.10 Resultado da distribuio da freqncia da varivel resistncia

    ferrugem para hbridos de ciclo curto

    3.1.1.3. Grfico de Colunas/Barras

    O STATISTICA um programa que permite integrar um grande potencial grfico com a anlise estatstica de dados num nico aplicativo. A editorao grfica facilitada por meios de opes do sistema.

    A construo de grficos est disponvel para qualquer mdulo do STATISTICA, visto que existe na barra do menu, a opo Graphs Clicando nela aparecem as opes grficas do aplicativo e cabe ao usurio conhecimento terico e intuitivo para que seja encontrada a melhor forma de representao do fenmeno.

    Sero construdos grficos em duas e trs dimenses, como 1 exemplo, um simples histograma de freqncia (grfico de colunas/barras).

    DICA: a compatibilidade do STATISTICA com o Windows plena, isto significa que todas as operaes comuns no Windows so reconhecidas e aceitas. Assim sendo, cortar e colar se combinam com Screen Catcher (Opo em Edit, na Barra de ferramentas do menu principal do STATISTICA que permite a captura da janela ou de um quadro), Alt + Print Screen (no teclado) que copia, trabalhando em conjunto com algum editor de figuras, como o Paint; e mais, h a possibilidade de salvar tudo o que foi feito em formato .rtf (rich text format) atravs do uso da opo Report, que permite criar relatrios internamente no programa, tornando o STATISTICA um editor de grficos bem completo.

    Exemplo: Construo do grfico de colunas para a varivel resistncia ferrugem.

    (1) No menu [Graphs], escolha a opo [Histograms], clique na aba [Advanced] e aparecer a janela apresentada na Figura 3.11:

  • Cap. 3 Anlise Exploratria de Dados

    19

    Figura 3.11 Janela para a especificao do grfico de colunas

    (2) Selecione a varivel, clicando no boto [Variables] e depois na varivel que

    ser estudada, conforme apresentada na figura a seguir:

    Figura 3.12 Janela que mostra as variveis que podem ser selecionadas

    (3) Na janela da Figura 3.11, especifique:

    o tipo de grfico (Graph Type:) regular

    o tipo de ajuste (Fit Type:) off (sem)

    ativar o Breaks between Columns (para que haja espao entre as colunas)

    O resultado das especificaes est apresentado na figura a seguir:

  • Cap. 3 Anlise Exploratria de Dados

    20

    Figura 3.13 Janela para a especificao do grfico de colunas

    (4) Clicar em OK e o grfico resultante est apresentado na figura a seguir:

    Figura 3.14 Grfico de colunas da varivel resistncia ferrugem

    (5) Para fazer um grfico de barras, na janela da Figura 3.13, clique na aba [Options2], selecione na opo [X-Y Axis position] o valor Reverse e clique no boto [OK]. O grfico resultante est apresentado na figura a seguir:

  • Cap. 3 Anlise Exploratria de Dados

    21

    Figura 3.15 Grfico de barras da varivel resistncia ferrugem

    Nota: No captulo 4 sero apresentadas as opes grficas para modificao do

    layout dos grficos.

    Imagina-se que os cultivares de 1 a 11 sejam do municpio de Iara. Se desejarmos fazer um grfico para este municpio, ento:

    (6) Volte na janela da Figura 3.13, clique no boto [Select Cases] e crie o filtro apresentado na figura a seguir:

    Figura 3.16 Janela que permite especificar os cultivares

    (7) O grfico resultante est apresentado na figura a seguir:

  • Cap. 3 Anlise Exploratria de Dados

    22

    Figura 3.17 Grfico de barras da varivel resistncia ferrugem

    para o municpio de Iara

    Observao: Existe mais de uma maneira de gerar um grfico, como o uso do menu flutuante (pop-up menu), para us-lo, selecione a coluna da varivel desejada e clique com boto direito do mouse. Aparecer uma janela onde deve selecionar a opo Graphs of Input Data a seguir escolha o grfico adequado, conforme apresentado na figura a seguir.

    Figura 3.18 Forma alternativa de gerar um Grfico

  • Cap. 3 Anlise Exploratria de Dados

    23

    3.1.2. Bidimensional

    Com essa anlise possvel criar:

    - Distribuio da freqncia para duas variveis;

    - Tabelas de contingncia: independncia de variveis qualitativas, uso do:

    o Coeficiente de contingncia de Pearson;

    o Coeficiente de Cramr.

    3.1.2.1. Tabela da Distribuio de Freqncia Bidimensional

    Exemplo: Anlise da distribuio de freqncia das variveis resistncia ferrugem e tipo de gro.

    (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer

    a janela apresentada na Figura 3.19, onde a opo a ser escolhida ser Frequency Table:

    Figura 3.19 Estatsticas bsicas e tabelas

    (2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.20:

    Figura 3.20 Janela para especificao de tabela

    (3) Clique no boto [Specify Tables (select variables)). Como a tabela bidimensional, implica que devemos escolher duas variveis conforme

    apresentado na Figura 3.21. As variveis aparecero na List 1: e List 2:.

  • Cap. 3 Anlise Exploratria de Dados

    24

    Figura 3.21 Janela com as variveis selecionadas para a tabela bidimensional

    (4) Clique nos botes [OK] da janela anterior e da Figura 3.20 e aparecer a

    janela apresentada na Figura 3.22:

    Figura 3.22 Janela para a visualizao do resultado

    (5) Clique no boto [Summary] e o resultado est apresentado na Figura 3.23:

    Figura 3.23 Tabela de distribuio de freqncia conjunta do n de hbridos, de acordo

    com a resistncia ferrugem e tipo de gro

    A linha All Grps mostra as freqncias absolutas, ou seja, o total de hbridos para cada categoria do tipo de gro. Como os totais marginais so diferentes, dificuldades reais de interpretao so introduzidas.

  • Cap. 3 Anlise Exploratria de Dados

    25

    Para uma melhor interpretao da tabela, o ideal selecionar que a tabela mostre os resultados em termos de propores, ou seja, podemos fixar o total

    de linhas e/ou o total de colunas e/ou o total geral.

    (6) Na janela da Figura 3.22, clique na aba [Options] e defina as opes conforme apresentado na figura 3.24. Para desativar, basta clicar na opo

    correspondente, retirando assim, o smbolo . Para ativar, basta clicar na opo ainda no selecionada:

    - Selecione Percentages of total count para a percentagem do total geral; ou

    - selecione Percentages of row counts para a percentagem do total das linhas; ou

    - selecione Percentages of column counts para a percentagem do total das colunas.

    Figura 3.24 Opes da tabela de freqncia conjunta

    Quando fixar o total de linhas e/ou o total de colunas e/ou o total geral?

    A resposta deve ser de acordo com o objetivo da sua pesquisa. Fixe a varivel que voc quer dar mais nfase. No exemplo, se for a ferrugem, fixe somente o

    total de linhas. Se for o tipo de gro, fixe somente o total de colunas.

    (7) Escolha o tipo de percentagem e clique no boto [Summary]. Os resultados esto apresentados nas trs tabelas a seguir:

    Figura 3.25 Selecionando somente o total geral

  • Cap. 3 Anlise Exploratria de Dados

    26

    Concluso: observando a figura anterior, pode-se concluir que do total de hbridos, 5 ou 15,63% so resistentes e dentados.

    Figura 3.26 Selecionando somente o total de linhas

    Concluso: observando a figura anterior, pode-se concluir que 4 ou 40% dos

    resistentes so semi-dentados pois a soma na linha igual a 100%.

    Figura 3.27 Selecionando somente o total de colunas

    Concluso: observando a figura anterior, pode-se concluir que dos hbridos semi-dentados, 4 ou 36,36% so resistentes, ou ainda, semi-dentados e dentados

    tem maior porcentagem de resistncia (36,36% e 35,71%, respectivamente contra 14,29% dos semi-duros).

    As quatro figuras anteriores mostram o mesmo resultado, porm, repare que

    fixar os totais percentuais no modifica o resultado e sim, enfatiza que resistentes, so os semi-dentados e os dentados.

  • Cap. 3 Anlise Exploratria de Dados

    27

    3.1.2.2. Grfico de Barras Mltiplas

    Para efetuar uma anlise comparativa de vrias distribuies, podemos

    construir um grfico de barras mltiplo.

    (1) No menu [Graphs], escolha a opo [Categorized Graphs], em seguida [Histograms] e aparecer a janela apresentada na Figura 3.28:

    Figura 3.28 Janela para a especificao do grfico de barras mltiplas

    (2) Selecione as variveis, clicando no boto [Variables] e depois escolha a

    varivel a ser estudada e a que ser a categoria, conforme apresentada na figura a seguir:

    Figura 3.29 Janela para seleo das variveis

    (3) Na janela da Figura 3.28, especifique:

    o tipo de grfico (Layout:) Overlaid

    O resultado das especificaes est apresentado na figura a seguir:

  • Cap. 3 Anlise Exploratria de Dados

    28

    Figura 3.30 Janela para a especificao do grfico de barras mltiplas

    (5) Para fazer um grfico de barras, na janela da figura anterior, clique na aba

    [Options2], selecione na opo [X-Y Axis position] o valor Reverse e clique no boto [OK]. O grfico resultante est apresentado na figura a seguir:

    Figura 3.31 Grfico de barras mltiplas, ferrugem (e seus quatro nveis: resistente,

    susceptvel, moderadamente susceptvel e moderadamente resistente) versus tipo de gro (e seus trs nveis:semi-duro, semi-dentado e dentado)

    3.1.2.3. Tabelas de Contingncia: independncia de variveis

    As tabelas construdas at aqui, so denominadas tecnicamente de tabelas de contingncia e so teis para estudar a dependncia (ou independncia) entre

  • Cap. 3 Anlise Exploratria de Dados

    29

    variveis. Vamos construir novamente a tabela bidimensional com as variveis ferrugem e tipo de gro, onde os totais de linhas foram fixados em 100%.

    (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.32, onde a opo a ser escolhida ser Frequency Table:

    Figura 3.32 Estatsticas bsicas e tabelas

    (2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.33:

    Figura 3.33 Janela para especificao de tabela

    (3) Clique no boto [Specify Tables (select variables)). Como a tabela bidimensional, implica que devemos escolher duas variveis conforme

    apresentado na Figura 3.34. As variveis aparecero na List 1: e List 2:.

    Figura 3.34 - Janela com as variveis selecionadas para a tabela bidimensional

  • Cap. 3 Anlise Exploratria de Dados

    30

    (4) Clique nos botes [OK] da janela anterior e da Figura 3.33 e aparecer a janela apresentada na Figura 3.35:

    Figura 3.35 Janela para a visualizao do resultado

    (5) Na janela da figura anterior, clique na aba [Options] e defina a opo

    percentagem do total das linhas (Percentages of row counts) conforme apresentado na Figura 3.36.

    Figura 3.36 Opes da tabela de freqncia conjunta

    (6) Na janela da figura anterior, clique na aba [Advanced] e selecione a opo (Display selected %s in sep. tables) conforme apresentado na Figura 3.37. Essa

    opo separa as freqncias dos valores percentuais em tabelas distintas.

    Figura 3.37 Opes da tabela de freqncia conjunta

    (7) Clique no boto [Summary] e os resultados esto apresentado nas figuras 3.38 e 3.39:

  • Cap. 3 Anlise Exploratria de Dados

    31

    Figura 3.38 Tabela de distribuio de freqncia conjunta do n de hbridos, de acordo

    com a resistncia ferrugem e tipo de gro freqncias

    Figura 3.39 Tabela de distribuio de freqncia conjunta do n de hbridos, de acordo

    com a resistncia ferrugem e tipo de gro - percentuais

    Interpretao: se os semi-dentados fossem totalmente independentes da

    varivel resistncia a ferrugem, esperaramos 34,38% (All Grps) para as categoria r, s, ms e mr. Na tabela observamos que a categoria s apresenta 57,14%, valor este acima dos 34,38%. Da mesma forma, observamos tambm que a categoria

    mr, com 16,67%, esta abaixo dos 34,38%. Isto implica um distanciamento da independncia entre as variveis. Podemos deduzir que elas esto associadas.

    A determinao dos coeficientes de continncia de Pearson e Cramr, vo quantificar (forte, moderada ou fraca) a dependncia.

  • Cap. 3 Anlise Exploratria de Dados

    32

    (7) Clicar em Crosstabulation Tables Resultados: hbridos (lado esquerdo, embaixo) Options Na janela da Figura 3.36 selecione a opo (Phi (2x2 tables) & Cramrs V & C) conforme apresentado na Figura 3.40.

    Figura 3.40 Opes da tabela de freqncia conjunta

    (8) Na janela da figura anterior, clique na aba [Advanced] e no boto [Detailed two-way tables] e o resultado est apresentado na Figura 3.41:

    Figura 3.41 Estatsticas para verificar a associao entre variveis

    Observao: O STATISTICA no corrige o coeficiente de contingncia (Contingency coefficient) = 0,4521588. A seguir est a frmula para correo:

    0,5538 31)-(3

    0,4521588

    t1)-(t

    C * C

    Como o coeficiente de contingncia est entre 0 e 1 (0 C* 1), temos uma associao moderada (mdia). Por outro lado, o coeficiente de Cramr (Cramrs V) - 0 V 1, indica uma associao fraca.

    3.1.2.4. Grfico de Setores (Pie Charts)

    (1) No menu [Graphs], escolha a opo [2D Graphs], em seguida [Pie Charts] e aparecer a janela apresentada na Figura 3.42:

  • Cap. 3 Anlise Exploratria de Dados

    33

    Figura 3.42 Janela para especificao do grfico de setores

    (2) Selecione a varivel, clicando no boto [Variables] e depois escolha a varivel a

    ser estudada, conforme apresentada na figura a seguir:

    Figura 3.43 Janela para seleo das variveis

    (3) Na janela da Figura 3.42, clique na aba [Advanced] e especifique:

    o tipo de legenda (Pie legend): Text and Percent (mostra o texto (nveis) e as porcentagens)

    o tipo de visualizao (Type): 3D (tridimensional)

    a forma (Shape): Ellipse (elipse)

    O resultado das especificaes est apresentado na figura a seguir:

  • Cap. 3 Anlise Exploratria de Dados

    34

    Figura 3.44 Janela para a especificao do grfico de setores

    (4) Clique no boto [OK] e o grfico resultante est apresentado na figura a

    seguir:

    Figura 3.45 Grfico de setores para a ferrugem

    (5) Para que os setores fiquem separados, clique com o boto direito do mouse em cima do grfico e escolha a opo (Graph Properies (All Options)). Na janela que abrir, clique na aba [Plot: Pie], ative o Exploded dos quatro setores, conforme apresentado na Figura 3.46:

  • Cap. 3 Anlise Exploratria de Dados

    35

    Figura 3.46 Opes grficas do Pie Charts

    (6) Clique no boto [OK] e o grfico resultante est apresentado na figura a

    seguir:

    Figura 3.47 Grfico de setores para a ferrugem

    3.2. Distribuio de Freqncia de Variveis Quantitativas

    Varivel quantitativa aquela que apresenta como resultado, medidas e

    contagens. Podem ser contnuas e discretas. As contnuas, so todas as que, pelo menos em teoria, possam assumir qualquer valor dentro de um intervalo; enquanto as discretas, normalmente resultam de contagens, so nmeros

    inteiros e s assumem certos valores.

    Neste caso podemos estabelecer duas situaes:

  • Cap. 3 Anlise Exploratria de Dados

    36

    1) Varivel contnua - classes de ocorrncia

    Observao: quando temos poucas observaes, at aproximadamente 25, a

    distribuio pode ser representada por meio de um diagrama de pontos. O programa STATISTICA no faz este diagrama.

    2) Varivel discreta - distribuio de freqncia feita de maneira

    idntica s variveis qualitativas (categorizadas). Tambm pode ser representada por um diagrama de pontos.

    3.2.1. Tabela de Distribuio de Freqncia para Varivel Quantitativa Discreta

    Se os resultados da varivel discreta no so muitos, podemos dar o mesmo

    enfoque dado as variveis qualitativas.

    (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer

    a janela apresentada na Figura 3.50, onde a opo a ser escolhida ser Frequency Table:

    Figura 3.50 Estatsticas bsicas e tabelas

    (2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.51:

    Figura 3.51 Tabelas de freqncia

  • Cap. 3 Anlise Exploratria de Dados

    37

    (3) Clique no boto [Variables] e selecione a varivel Ciclo, conforme apresentado na Figura 3.52:

    Figura 3.52. Janela para seleo das variveis para a anlise

    (4) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.53:

    Figura 3.53 Tabela de freqncia com a varivel Ciclo selecionada

    (5) Clique na aba [Options] e defina as opes conforme apresentado na figura 3.54:

    Figura 3.54 Opes da tabela de freqncia

    (6) Clique no boto [Summary] e o resultado est apresentado na Figura 3.55:

  • Cap. 3 Anlise Exploratria de Dados

    38

    Figura 3.55 Tabela de Distribuio de Freqncia da varivel Ciclo

    3.2.2. Representaes Grficas de Variveis Quantitativas Discretas

    Os grficos de barras justapostas, conhecidos como histogramas, so indicados no caso de variveis contnuas. Podemos ento, construir um GRFICO

    DE ORDENADAS para o caso de uma varivel discreta, como por exemplo, a varivel ciclo da cultura.

    O procedimento no STATISTICA o mesmo que construir um grfico de barras j descrito anteriormente no item 3.1.1.3. Entretanto, o grfico de ordenadas ser construdo para a varivel Ciclo, portanto, siga os passos do

    exemplo das figuras 3.11 a 3.14, no esquecendo de alterar no item (2) para a varivel Ciclo.

    (1) O grfico resultante est apresentado na Figura 3.56:

    Histogram (hibridos.sta 8v*32c)

    64 66 68 70 72 74 76

    Ciclo

    0

    1

    2

    3

    4

    5

    6

    No o

    f obs

    Figura 3.56 Grfico de colunas da varivel Ciclo

  • Cap. 3 Anlise Exploratria de Dados

    39

    (2) Clique com o boto direito do mouse em cima do grfico e escolha a opo (Graph Properties (All Options)). Na janela que abrir, clique na aba [Plot: Bars] e modifique a opo Type para Lines, conforme apresentado na Figura 3.57:

    Figura 3.57 Opes grficas do 2D Histograms

    (3) Clique no boto [OK] e o grfico resultante est apresentado na figura a seguir:

    Histogram (hibridos.sta 8v*32c)

    64 66 68 70 72 74 76

    Ciclo

    0

    1

    2

    3

    4

    5

    6

    No o

    f obs

    Figura 3.58 Grfico de ordenadas da varivel ciclo

    Quando temos muitas observaes de uma varivel em estudo (acima de 25),

    recomendvel a formao de intervalos de valores, isto , construir classes de ocorrncias.

  • Cap. 3 Anlise Exploratria de Dados

    40

    O STATISTICA pode agrupar os dados em quantas classes quisermos, e a, construir tabelas e grficos em funo dos intervalos. Usar este artifcio uma

    maneira de encontrar uma melhor representao do fenmeno em estudo.

    Os intervalos ou so por ele agrupados (dados agrupados em classes), divididos de maneira igual conforme um n previamente estipulado (n of exact intervals), ou, o pesquisador define estas classes (amplitude de casas desiguais).

    3.2.3. Dados Agrupados em Classes

    Quantos intervalos escolher?

    O nmero de classes deve ser o suficiente para nos dar uma boa idia do

    fenmeno, devendo por em evidncia a regularidade do fenmeno.

    O compromisso de cada pesquisador. Construindo sucessivamente diferentes histogramas, alterando o nmero de intervalos, possvel identificar a

    melhor opo, e assim, deve escolher o que melhor representa a distribuio do fenmeno por ele estudado.

    Recomenda-se que o nmero no seja muito grande (maior que 15) e nem

    muito pequeno (menor que 5) e tambm, sempre que for possvel, que as classes tenham a mesma amplitude.

    Procedimento:

    (1) Repetir os passos (1) a (5) do item 3.2.1 (Tabela de Distribuio de Freqncia para Varivel Quantitativa Discreta), porm altere a varivel para rendimento.

    (2) Clique na aba [Advanced] e defina a opo No. of exact intervals igual a 6, conforme apresentado na figura 3.59:

    Figura 3.59 Opes da tabela de freqncia

    Iniciaremos o exemplo com um nmero de classes igual a 6. Posteriormente

    reduziremos para 5 e finalizaremos com 15 classes. O propsito baseado em uma verificao que vai possibilitar que visualizemos a realidade do fenmeno aonde certos grupos iro ento aparecer destacados.

    (3) Clique no boto [Summary] e o resultado est apresentado na Figura 3.60:

  • Cap. 3 Anlise Exploratria de Dados

    41

    Figura 3.60 Tabela de Distribuio de Freqncia com 6 classes

    da varivel rendimento de gros

    Observao: Neste caso, de dados agrupados em classes, repare que os intervalos de classes so de tamanhos iguais.

    (4) Clicar em Frequency Tables: hbridos (lado esquerdo, embaixo). Para a construo do histograma clique no boto [Histograms] da Figura 3.59. O

    resultado est apresentado a seguir:

    Histogram: Rendimento

    Expected Normal

    3864 4347 4830 5313 5796 6279 6762

    X

  • Cap. 3 Anlise Exploratria de Dados

    42

    Histogram: Rendimento

    Expected Normal

    3622.50 4226.25 4830.00 5433.75 6037.50 6641.25

    X

  • Cap. 3 Anlise Exploratria de Dados

    43

    (7) Na janela da Figura 3.59, na aba [Advanced], defina a opo User-specified categories e digite os intervalos das classes de cada categoria conforme apresentado na figura a seguir:

    Figura 3.64 Janela onde so definidas as categorias

    (8) Clique no boto [Summary] e o resultado est apresentado na Figura 3.65:

    Figura 3.65 Tabela de distribuio de freqncia usando

    categorias definidas pelo usurio

    Observaes:

    A varivel deve ser indicada por seu nmero, ou por sua sigla. No exemplo, vamos trabalhar com a varivel Rendimento que pode ser

    identificada como v2 ou como RENDIMENTO.

  • Cap. 3 Anlise Exploratria de Dados

    44

    3.2.4. Polgono de Freqncias Mtiplos

    Com esse tipo de grfico pode-se verificar mltiplas distribuies de

    freqncia num mesmo grfico. Segue a seqncia de passos para a construo do mesmo.

    (1) No menu [INSERT], escolha a opo [Add Variables], conforme apresentado na

    Figura 3.66:

    Figura 3.66 Criao de novas variveis

    (2) Crie uma varivel aps a varivel Ferrugem, conforme definido na Figura 3.67

    e clicar em OK:

    Figura 3.67 Janela para a criao de novas variveis

    (3) A nova varivel cCiclo corresponder a categorizao da varivel Ciclo, para isso basta posicionar o cursor na nova varivel e no menu [DATA], escolher a opo [Recode], conforme apresentado na Figura 3.68:

  • Cap. 3 Anlise Exploratria de Dados

    45

    Figura 3.68 Acesso janela para a categorizao da varivel Ciclo

    (4) A categorizao da varivel Ciclo ser feita conforme apresentado na Figura

    3.69: clicar OK.

    Figura 3.69 Janela para a categorizao da varivel Ciclo

    (5) No menu [Graphs], escolha a opo [Categorized Graphs], em seguida

    [Histograms] e aparecer a janela apresentada na Figura 3.70:

  • Cap. 3 Anlise Exploratria de Dados

    46

    Figura 3.70 Janela para a especificao do grfico de colunas mltiplas

    (6) Selecione as variveis, clicando no boto [Variables] e depois escolha a

    varivel a ser estudada e a que ser a categoria, conforme apresentado na Figura 3.71:

    Figura 3.71 Janela para seleo das variveis

    (7) Na janela da Figura 3.70, especifique:

    o tipo de grfico (Layout:) Overlaid

    O resultado das especificaes est apresentado na Figura 3.72:

  • Cap. 3 Anlise Exploratria de Dados

    47

    Figura 3.72 Janela para a especificao do grfico de colunas mltiplas

    (8) Clique no boto [OK] e o grfico resultante apresentado na Figura 3.73:

    Figura 3.73 Grfico de colunas mltiplas, rendimento

    versus tipo de ciclo (precoce ou tardio)

    (9) Para o grfico de freqncias mltiplas, clique com o boto direito do mouse em cima do grfico e escolha a opo (Graph Properies (All Options)). Na janela que abrir, clique na aba [Plot: General], ative o Multiple Lines conforme apresentado na Figura 3.74:

  • Cap. 3 Anlise Exploratria de Dados

    48

    Figura 3.74 Opes grficas

    (10) Na janela da Figura 3.74, clique na aba [Plot: Bars], desative o Display Bars conforme apresentado na Figura 3.75:

    Figura 3.75 Opes grficas

    (11) Clique no boto [OK] e o grfico resultante apresentado na Figura 3.76:

  • Cap. 3 Anlise Exploratria de Dados

    49

    Figura 3.76 Grfico polgono de freqncias mltiplas, rendimento

    versus tipo de ciclo (precoce ou tardio)

    3.2.5. O Modelo Normal

    Uma distribuio de freqncia muito importante em estatstica surge quando os dados tendem a se concentrarem simetricamente em torno de um valor central. Essa distribuio conhecida como a distribuio normal ou

    Gaussiana e sua forma a de sino.

    A maioria dos fenmenos naturais tm esta distribuio, porm, apesar

    desta forma ser a mais esperada, o aspecto terico e cabe ao pesquisador estud-lo.

    O STATISTICA, por default, quando constri o histograma, tambm representa o modelo normal. Assim, o pesquisador pode ter uma idia se a sua amostra oriunda de uma distribuio aproximadamente normal.

    Normal Probability Plot (O Grfico Normal de Probabilidades)

    (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], a opo a

    ser escolhida ser Frequency Table. Selecione a varivel Rendimento.

    (2) Clique na aba [Descr.] conforme apresentado na Figura 3.77:

  • Cap. 3 Anlise Exploratria de Dados

    50

    Figura 3.77 Opes da tabela de freqncia

    (3) Clique no boto [Normal probability plots (2)] e o resultado est apresentado na Figura 3.78:

    Normal P-Plot: Rendimento

    3800

    4000

    4200

    4400

    4600

    4800

    5000

    5200

    5400

    5600

    5800

    6000

    6200

    6400

    6600

    Value

    -2.5

    -2.0

    -1.5

    -1.0

    -0.5

    0.0

    0.5

    1.0

    1.5

    2.0

    2.5

    Expecte

    d N

    orm

    al V

    alu

    e

    Figura 3.78 Grfico Normal de Probabilidade da varivel Rendimento

    Interpretao: como os pontos esto dispostos prximos linha reta,

    conclui-se que a nossa amostra oriunda de uma distribuio aproximadamente normal.

  • Cap. 3 Anlise Exploratria de Dados

    51

    3.3. Estatsticas Descritivas

    3.3.1. Medidas de Tendncia Central e Disperso

    A varivel Rendimento adotada como exemplo para se obter as estatsticas descritivas.

    (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.79, onde a opo a ser escolhida ser

    Descriptive statistics:

    Figura 3.79 Estatsticas bsicas e tabelas

    (2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.80:

    Figura 3.80 Estatsticas descritivas

    (3) Clique no boto [Variables] e selecione a varivel Rendimento.

    (4) Clique na aba [Advanced] conforme apresentado na Figura 3.81:

  • Cap. 3 Anlise Exploratria de Dados

    52

    Figura 3.81 Opes de estatsticas descritivas

    Na janela anterior, selecionou-se as estatsticas relevantes para o caso,

    conforme apresentado a seguir:

    Valid N - tamanho da amostra

    Mean mdia

    Sum soma

    Median mediana

    Standard Deviation - desvio padro

    Variance varincia

    Std. err. of mean - erro padro da mdia

    Skewness assimetria

    Minimum & maximum - mnimo e mximo

    Lower & upper quartiles - primeiro quartil (Q1) e terceiro quartil (Q3)

    Range amplitude

    Quartile range - desvio interquartlico

    (4) Clique no boto [Summary] e os resultados esto apresentados nas figuras 3.82 e 3.83:

    Figura 3.82 Estatsticas descritivas

  • Cap. 3 Anlise Exploratria de Dados

    53

    Figura 3.83 Estatsticas descritivas

    Outro exemplo:

    Esta anlise ser baseada em um outro arquivo: bezerros.sta, que deve ser

    criado conforme dados apresentados no Quadro 3.1.

    Quadro 3.1 - Resultado experimental do peso e comprimento, para duas raas de bezerros

    Raa Peso (Kg)

    Comprimento (cm)

    A 45 102

    A 46 98

    A 47 89

    A 49 91

    A 50 110

    A 50 81

    A 51 96

    A 51 108

    A 52 85

    A 53 104

    B 40 86

    B 43 79

    B 44 82

    B 46 90

    B 48 72

    B 51 69

    B 54 93

    B 55 88

    B 56 79

    B 57 83

    Como primeira anlise, sero determinadas as estatsticas bsicas da varivel Peso para cada tipo de raa de bezerros (A e B) apresentados no quadro anterior, para isso basta seguir o procedimento abaixo:

    (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.84, onde a opo a ser escolhida ser

    Breakdown & one-way ANOVA:

  • Cap. 3 Anlise Exploratria de Dados

    54

    Figura 3.84 Estatsticas bsicas e tabelas

    (2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.85:

    Figura 3.85 Estatsticas descritivas por varivel agrupadora

    (3) Clique no boto [Variables] e selecione a varivel Peso como dependente

    (Dependent variables) e a varivel raa como agrupadora (Grouping variables), conforme apresentado na Figura 3.86.

    Figura 3.86 Janela para seleo das variveis para a anlise

    (4) Clique nos botes [OK] das duas figuras anteriores e aparecer a janela apresentada na Figura 3.87, aps o clique na aba [Descriptives]:

  • Cap. 3 Anlise Exploratria de Dados

    55

    Figura 3.87 Opes de estatsticas descritivas

    Na janela anterior, selecionou-se as estatsticas relevantes para o caso,

    sendo que a mdia (mean) vem automaticamente, conforme apresentado a seguir:

    Standard Deviation - desvio padro

    Median & quartiles mediana, primeiro quartil (Q1) e terceiro quartil (Q3)

    (5) Clique no boto [Summary] e os resultados esto apresentados na Figura 3.88:

    Figura 3.88 - Estatsticas descritivas da varivel Peso por tipo de raa

    A anlise estatstica descritiva utilizada como uma descrio de um

    conjunto de valores.

    CUIDADO !!! A mdia e o desvio padro so afetados por valores extremos, altos ou baixos, e a estatstica torna-se irreal. A mdia (Mean) representar bem apenas em casos onde existe simetria, pois a mdia de um modelo assimtrico no reflete a realidade, e neste caso, a mediana (Median) torna-se uma melhor maneira de representao.

    O desvio padro (Standard deviation) e o erro padro da mdia (Std. err. of mean) so medidas calculadas em torno da mdia e a inteno quantificar a variabilidade dos dados em torno da mdia. Por ser, ento, uma medida relativa, deve existir uma referncia para que faamos a interpretao. Um pesquisador

  • Cap. 3 Anlise Exploratria de Dados

    56

    com experincia j espera um determinado valor da variabilidade, caso contrrio, a anlise deve ser baseada em resultados de outros trabalhos.

    Nos quartis temos a distribuio dividida em quatro partes iguais.

    25% 25% 25% 25%

    __________________________________________

    Mnimo Q1 Mediana Q2 Mximo

    3.3.2. A Mdia e o Desvio Padro sob um Modelo Normal

    Nessa anlise, ser utilizada a ferramenta do STATISTICA de clculo de probabilidade, para isso basta seguir o procedimento abaixo:

    (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer

    a janela apresentada na Figura 3.89, onde a opo a ser escolhida ser Probability calculator:

    Figura 3.89 Estatsticas bsicas e tabelas

    (2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.90:

    Figura 3.90 Janela para clculo de probabilidade

    (3) Na janela anterior, especificar:

    Distribution: Z (Normal)

    Two-tailed (bilateral) e Create Graph (criar o grfico)

  • Cap. 3 Anlise Exploratria de Dados

    57

    X: digite o valor 1

    Na figura a seguir esto apresentados os resultados da especificao.

    Figura 3.91 Janela para clculo de probabilidade

    (4) Clique no boto [Compute], aparecer o valor da probabilidade (p) e os grficos das funes densidade e distribuio de probabilidade, apresentados respectivamente nas figuras 3.92 e 3.93:

    Figura 3.92 Janela para clculo de probabilidade

    Observao: Para ter acesso ao grfico necessrio sair da janela de clculo

    de probabilidade, para isto clique no boto [Exit].

  • Cap. 3 Anlise Exploratria de Dados

    58

    Probability Density Function

    y=normal(x;0;1)

    -3 -2 -1 0 1 2 30.0

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    Probability Distribution Function

    p=1-2*(1-inormal(0+abs(x-0);0;1))

    -3 -2 -1 0 1 2 30.0

    0.2

    0.4

    0.6

    0.8

    1.0

    Figura 3.93 - Distribuio normal padro: mdia mais ou menos 1 desvio padro ( s1x )

    Interpretao: Observar na Figura 3.81, que no intervalo s1x , temos

    exatamente 68,2689% dos valores (p=0,682689).

    (4) Repetir os itens (3) e (4) alterando o valor de X para 2 e 3. Os resultados esto apresentados nas figuras a seguir:

    Probability Density Function

    y=normal(x;0;1)

    -3 -2 -1 0 1 2 30.0

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    Probability Distribution Function

    p=1-2*(1-inormal(0+abs(x-0);0;1))

    -3 -2 -1 0 1 2 30.0

    0.2

    0.4

    0.6

    0.8

    1.0

    Figura 3.94 - Distribuio normal padro: mdia mais ou menos 2 desvios padres ( s2x )

    Interpretao: Temos agora, 95,45% dos valores (p=0,9545).

  • Cap. 3 Anlise Exploratria de Dados

    59

    Probability Density Function

    y=normal(x;0;1)

    -3 -2 -1 0 1 2 30.0

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    Probability Distribution Function

    p=1-2*(1-inormal(0+abs(x-0);0;1))

    -3 -2 -1 0 1 2 30.0

    0.2

    0.4

    0.6

    0.8

    1.0

    Figura 3.95 - Distribuio normal padro: mdia mais ou menos 3 desvios padres ( s3x )

    Interpretao: Temos agora, 99,73% dos valores (p=0,9973).

    3.3.3. Desenho Esquemtico (Box Plot)

    O uso da mediana, quartis e extremos importante para obtermos informaes sobre a forma, valor representativo, disperso e valores discrepantes

    da distribuio. A anlise ser realizada sobre o arquivo bezerros.sta.

    (1) No menu [Graphs], escolha a opo [2D Graphs], em seguida [Box Plots] e aparecer a janela apresentada na Figura 3.96:

    Figura 3.96 Janela para especificao do desenho esquemtico

  • Cap. 3 Anlise Exploratria de Dados

    60

    (2) Selecione a varivel, clicando no boto [Variables] e depois escolha a varivel Peso como a varivel a ser analisada (dependent variable), clique no boto [Ok] e

    aparecer a janela apresentada na figura a seguir:

    Figura 3.97 Janela para especificao do desenho esquemtico

    (3) Clique no boto [OK] e o grfico resultante est apresentado na figura a seguir:

    Box Plot (bezerros.sta 3v*20c)

    Median = 50

    25%-75%

    = (46, 52.5)

    Non-Outlier Range

    = (40, 57)

    Peso38

    40

    42

    44

    46

    48

    50

    52

    54

    56

    58

    Figura 3.98 Desenho esquemtico em duas dimenses para o peso

    Para saber se existe diferena na distribuio entre as duas raas, pode-se construir um grfico box plot categorizado, conforme apresentado no procedimento a seguir:

    (4) Na janela da Figura 3.97, clique na aba [Advanced] e especifique:

  • Cap. 3 Anlise Exploratria de Dados

    61

    as variveis: independente (Independent variables): PESO e agrupadora (Grouping variables): RACA

    o tipo de grfico (Graph Type): Box Wiskers e Regular

    o intervalo de agrupamento (Grouping intervals): Integer mode

    o ajuste (FIT): off (sem linha)

    o ponto central (Middle Point): Value=Median e Style=Point

    a caixa (Box): Value=Percentiles e Coefficient=25

    o limite (Whisker): Value=Non Outlier Range e Coefficient=1 (default)

    os pontos discrepantes (Outliers): Value=Outl & Extremes e Coefficient=1,5

    O resultado das especificaes est apresentado na figura a seguir:

    Figura 3.99 Janela para a especificao do desenho esquemtico

    (5) Clique no boto [OK] e o grfico resultante est apresentado na figura a

    seguir:

  • Cap. 3 Anlise Exploratria de Dados

    62

    Box Plot (bezerros.sta 3v*20c)

    Median

    25%-75%

    Non-Outlier Range A B

    Raca

    38

    40

    42

    44

    46

    48

    50

    52

    54

    56

    58

    Peso

    Figura 3.100 Desenho esquemtico para as raas A e B

    Se diminuirmos o coeficiente para 0,4 vo aparecer outliers no desenho, conforme apresentado na Figura 3.101. O padro do STATISTICA e de muitos livros de estatstica usar o critrio coeficiente (Coefficient) igual a 1,5, porm, o pesquisador tem autonomia para alter-lo.

    Box Plot (bezerros.sta 3v*20c)

    Median

    25%-75%

    Non-Outlier Range

    OutliersA B

    Raca

    38

    40

    42

    44

    46

    48

    50

    52

    54

    56

    58

    Peso

    Figura 3.101 Desenho esquemtico para as raas A e B, usando o coeficiente igual a 0,4

    3.3.4. Diagrama de Disperso

    Para verificar o relacionamento entre duas variveis pode-se utilizar o diagrama de disperso. A anlise ser realizada sobre o arquivo hibridos.sta.

    (1) No menu [Graphs], escolha a opo [2D Graphs], em seguida [Scatterplots] e aparecer a janela apresentada na Figura 3.102:

  • Cap. 3 Anlise Exploratria de Dados

    63

    Figura 3.102 Janela para especificao do diagrama de disperso

    (2) Na janela da Figura anterior, especifique:

    as variveis: X: Altura_planta e Y: Altura_espiga

    o tipo de grfico (Graph Type): Regular

    o ajuste (Linear fit): sem seleo

    O resultado das especificaes est apresentado na figura a seguir:

    Figura 3.103 Janela para a especificao do diagrama de disperso

    (5) Clique no boto [OK] e o grfico resultante est apresentado na figura a seguir:

  • Cap. 3 Anlise Exploratria de Dados

    64

    Scatterplot (hibridos.sta 7v*32c)

    230 240 250 260 270 280 290

    Altura_planta

    100

    110

    120

    130

    140

    150

    160

    Altu

    ra_espig

    a

    Figura 3.104 Diagrama de disperso para as variveis quantitativas, altura de espiga e

    altura de planta.

    Interpretao: de modo geral observamos uma tendncia linear nos dados, isto , quanto mais altas so as plantas, mais altas as alturas das espigas.

    3.3.5. Coeficiente de Correlao

    (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.105, onde a opo a ser escolhida ser

    Correlation matrices:

    Figura 3.105 Janela para o clculo do coeficiente de correlao

    (2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.106:

  • Cap. 3 Anlise Exploratria de Dados

    65

    Figura 3.106 Janela para seleo das variveis para a anlise

    (3) Clique no boto [Two lists (rect. matrix)] e selecione a varivel Altura_planta (First variable list) e a varivel Altura_espiga (Second variable list (optional)), conforme apresentado na Figura 3.107.

    Figura 3.107 Janela para seleo das variveis para a anlise

    (4) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.108:

    Figura 3.108 Janela para seleo das variveis para a anlise

    (5) Clique no boto [Summary] da figura anterior e o valor da correlao estar apresentado na Figura 3.109:

  • Cap. 3 Anlise Exploratria de Dados

    66

    Figura 3.109 Valor do coeficiente de correlao

    Interpretao: Podemos concluir que as variveis esto correlacionadas

    positivamente, ou seja, quanto maior a altura da planta maior a altura da espiga.

    3.3.6. Ajuste da Equao de uma Reta

    O ajuste de um modelo linear simples da como resultado uma equao matemtica que descreve o relacionamento entre duas variveis. Para ajustar um

    modelo linear simples entre a altura da planta e altura da espiga, basta repetir o procedimento do item 3.3.4. habilitando o ajuste linear (Linear fit), conforme apresentado na Figura 3.110.

    Figura 3.110 Janela para a especificao do diagrama de disperso

    (1) Clique no boto [OK] e o grfico resultante est apresentado na figura a seguir:

  • Cap. 3 Anlise Exploratria de Dados

    67

    Scatterplot (hibridos.sta 7v*32c)

    Altura_espiga = -68.5699+0.753*x

    230 240 250 260 270 280 290

    Altura_planta

    100

    110

    120

    130

    140

    150

    160

    Altu

    ra_espig

    a

    Figura 3.111 Valores observados e a equao de regresso ajustada

    O modelo linear simples ajustado :

    plantaAlturaespigalturaA _x753,05699,68_

    Interpretao: o aumento de 1 cm no valor da altura da planta faz com que a altura da espiga aumente em 0,753 cm.

    Anlise dos Resduos

    Essa anlise feita para a varivel dependente e permite verificar se o

    modelo ajustado adequado para os dados, se as varincias so homogneas, se existem valores discrepantes e se os erros podem ser assumidos como tendo aproximadamente uma distribuio normal. Os resduos consistem da diferena

    entre os valores observados e os estimados pelo modelo ajustado, conforme equao a seguir:

    iii YYe

    onde:

    ei = resduo da i-sima observao

    Yi = valor observado da varivel resposta da i-sima observao

    iY = valor estimado da varivel resposta da i-sima observao

    O modelo ser considerado adequado se a distribuio dos resduos for

    normalmente distribuda com mdia nula e varincia constante ( 2). Uma das formas de verificao atravs de anlise grfica, explorada neste tpico. Na

    seqncia esto os passos para a anlise dos resduos.

    (1) No menu [INSERT], escolha a opo [Add Variables], conforme apresentado na Figura 3.112:

  • Cap. 3 Anlise Exploratria de Dados

    68

    Figura 3.112 Criao de novas variveis

    (2) Crie duas variveis aps a varivel Ferrugem, conforme apresentado na Figura 3.113:

    Figura 3.113 Janela para a criao de novas variveis

    (3) Defina as variveis, uma ser relativa aos valores estimados e a outra aos

    resduos, conforme apresentado nas figuras 3.114 e 3.115, respectivamente:

  • Cap. 3 Anlise Exploratria de Dados

    69

    Figura 3.114 Janela para a criao dos valores estimados

    Observao: na janela anterior foi inserido o modelo linear ajustado

    (= -68.5699 + (0.753 * v4)), onde v4 corresponde varivel Altura_planta.

    Figura 3.115 Janela para a criao dos resduos

    Observao: na janela anterior foi inserido o clculo dos resduos (ei) (= v5 - v8)), onde v5 corresponde varivel Altura_espiga e v8 Altura_espiga_est

    (valores estimados).

    (4) Para verificar se os resduos so normalmente distribudos, construdo o Grfico normal de probabilidade dos resduos, conforme apresentado na Figura

    3.116, cujo resultado est apresentado na Figura 3.117:

  • Cap. 3 Anlise Exploratria de Dados

    70

    Figura 3.116 Janela para a criao do grfico de probabilidade normal dos resduos

    Normal Probability Plot of Altura_espiga_res (hibridos.sta 9v*32c)

    -30 -20 -10 0 10 20 30

    Observed Value

    -2.5

    -2.0

    -1.5

    -1.0

    -0.5

    0.0

    0.5

    1.0

    1.5

    2.0

    2.5

    Expecte

    d N

    orm

    al V

    alu

    e

    Figura 3.117 Grfico de probabilidade normal dos resduos

    Interpretao: o grfico anterior indica que os resduos possuem uma

    distribuio normal.

    (5) Para verificar se os resduos possuem varincia constante, construdo um grfico de disperso (scatterplot) entre os resduos (ei) e a varivel independente ou preditora (Altura_planta), conforme apresentado na Figura 3.118, cujo resultado est apresentado na Figura 3.119:

  • Cap. 3 Anlise Exploratria de Dados

    71

    Figura 3.118 Janela para a criao do grfico de disperso entre os resduos e a

    varivel independente ou preditora (Altura_planta)

    Scatterplot (hibridos.sta 9v*32c)

    230 240 250 260 270 280 290

    Altura_planta

    -30

    -20

    -10

    0

    10

    20

    30

    Altu

    ra_espig

    a_re

    s

    Figura 3.119 Grfico de disperso entre os resduos e a

    varivel independente ou preditora (Altura_planta)

    Interpretao: o grfico anterior indica que a distribuio dos resduos

    aleatria, o modelo linear adequado e que a varincia dos erros pode ser considerada constante.

  • Cap. 4 Opes Grficas

    72

    (6) Para verificar se existe(m) valor(es) discrepante(s), construdo um grfico de disperso (scatterplot) entre os resduos padronizados e a varivel independente ou preditora (Altura_planta).

    Os resduos (erros) padronizados so calculados como:

    2/1

    2 ne

    ez

    n

    i i

    ii

    No Statistica criar uma nova varivel nominada de resduos^2, ou seja, no programa statistica temos: resduos^2 = v9**2.

    V com o cursor em cima da varivel resduos^2, ou seja, em v10, clicar com o boto direito, selecionar statistics of block data blocks columns sums.

    Na ltima linha na planilha dos dados vai aparecer o total 3818,922ou seja, a soma dos quadrados dos erros ou resduos.

    Criar uma nova varivel nominada de resduos padronizados aps a varivel

    resduos^2, na planilha de dados. Esta varivel assume os valores dados por: =v9/(sqrt(3818,922/(32-2))), onde sqrt a raz quadrada.

    Criar um grfico de disperso com as variveis: resduos padronizados e altura_planta. Temos o resultado:

    Como os resduos padronizados esto na faixa de -3 a 3, no temos a

    presena de valores discrepantes (outliers).

    (7) Para verificar a qualidade do ajuste do modelo linear podemos calcular o

    coeficiente de determinao (R2). Matematicamente dado pelo coeficiente de correlao ao quadrado.

  • Cap. 4 Opes Grficas

    73

    Para o nosso exemplo temos: R2 = (0,65)2 = 0,4244. Em porcentagem vale 42,44%, ou seja, temos que a incluso da varivel altura de planta no modelo

    explica 42,44% da altura de espiga.

  • Cap. 4 Opes Grficas

    74

    4. OPES GRFICAS

    Para editar o aspecto geral do grfico, basta clicar duas vezes com o boto esquerdo do mouse sobre a rea de fora do grfico propriamente dita (rea onde esto as palavras de legenda, ttulo e as escalas). Uma outra forma clicar com o boto direito do mouse e escolher a opo Graph Properties (All Options), conforme apresentado na Figura 4.1:

    Figura 4.1 Edio das propriedades do grfico

    Ambos os procedimentos abrem a janela de edio geral do grfico apresentada na Figura 4.2, porm a segunda forma permite acessar outras opes, como por exemplo: copiar (Copy Graph) o grfico ou capturar uma regio

    do mesmo (Screen Catcher) para um editor de texto, imprimir (Print Graph).

  • Cap. 4 Opes Grficas

    75

    Figura 4.2 Janela das propriedades do grfico

    Com a janela apresentada na Figura 4.2 possvel, por exemplo:

    - alterar as propriedades da janela (Graph Window), como a cor do fundo (Outside Background Color), a borda (Borders around the graph) e o tamanho (Size) do mesmo;

    - alterar o layout (Graph Layout) como a disposio dos eixos (Axis positions);

    - modificar ttulos e subttulos (Graph Titles/Text), como o tipo, tamanho e cor da letra;

    - editar os eixos (Axis Scaling), como os valores incio (Minimum), fim (Maximum) e o passo (Step Size) da escala.

    Existem outras opes que so especficas para cada tipo de grfico, como:

    - Plot: Bar grfico de barras;

    - Plot: Histogram histogramas;

    - Plot: Pies grfico de setores;

    - Plot: Point Labels grfico de disperso.

    Uma forma mais rpida para alterar a formatao de um grfico clicar duas vezes em cima do que se quer mudar e alterar conforme padro do trabalho

    que se est fazendo ou para traduzir textos para o Portugus, por exemplo. Para exemplificar, ser utilizado o grfico de colunas construdo para a varivel resistncia ferrugem reapresentado na Figura 4.1. A seguir, est uma

    seqncia de procedimentos que visa exemplificar o potencial grfico que est disponvel no programa STATISTICA .

  • Cap. 4 Opes Grficas

    76

    Figura 4.3 Grfico de colunas da varivel resistncia ferrugem

    (1) Clicar duas vezes em cima do ttulo do grfico, aparecer a janela apresentada na Figura 4.4:

    Figura 4.4 Janela das propriedades do ttulo

    (2) Alterar o ttulo, sua fonte, tamanho e cor, conforme seu padro adotado. Na

    Figura 4.5 est um exemplo:

    Figura 4.5 Janela das propriedades do ttulo

    (3) Clicar duas vezes em cima do fundo do grfico, cujo padro a cor amarela claro, trocando-se a cor conforme apresentado na Figura 4.6:

  • Cap. 4 Opes Grficas

    77

    Figura 4.6 Alterao das propriedades do fundo

    (4) Clicar duas vezes no ttulo do eixo que se deseja modificar, no exemplo o Y,

    apresentado na Figura 4.7:

    Figura 4.7 Janela das propriedades do eixo Y

    (5) Alterar o ttulo do eixo, conforme apresentado na Figura 4.8:

  • Cap. 4 Opes Grficas

    78

    Figura 4.8 Janela das propriedades do eixo Y

    (6) Para alterar o eixo X, basta alterar a caixa de texto da opo Axis na Figura 4.8 para X e modificar o ttulo deste, conforme apresentado na Figura 4.8:

    Figura 4.9 Janela das propriedades do eixo Y

    (7) Para modificar o preenchimento (rea) e a cor das barras, clicar com o boto

    da direita em cima de uma das colunas, apresentado na Figura 4.10:

  • Cap. 4 Opes Grficas

    79

    Figura 4.10 Alterao do o preenchimento da coluna

    (8) Escolher a cor e o padro atravs da janela apresentada na Figura 4.11:

    Figura 4.11 Janela para escolha do preenchimento da coluna

    (9) O grfico resultante est apresentado na Figura 4.12:

  • Cap. 4 Opes Grficas

    80

    Figura 4.12 Grfico de colunas da varivel resistncia ferrugem

    Observao: Ressalta-se que foram exploradas somente algumas das opes grficas disponveis no programa STATISTICA , cabendo ao leitor explorar as

    diversas formas de edio e possveis padronizaes de seus grficos.

  • Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

    81

    5. TESTES ESTATSTICOS PARA COMPARAO DE

    DUAS MDIAS

    5.1. Teste de Duas Mdias Populacionais com Varincias Desconhecidas

    a) Dados pareados ou amostras dependentes

    b) Dados no pareados ou amostras independentes

    b.1) Varincias homogneas (iguais)

    b.2) Varincias heterogneas (desiguais)

    O mtodo de anlise selecionado para o teste-t deve ser previamente

    estudado para que no implique em resultados falsos. Isto significa que precisamos testar a homogeneidade das varincias e verificar o planejamento da pesquisa, e baseado nesta concluso, aplicar ento o teste correto, que pode ser:

    1. Amostras independentes - varincias homogneas - (T-Test for Independent Samples (Groups))

    2. Amostras independentes - varincias heterogneas - (T-Test for Independent Samples (Groups) aplicado o t-test with separate variances estimates)

    3. Amostras dependentes (Correlacionadas) - (T-Test for Dependent (Correlated) Samples)

    5.1.1. Amostras Independentes com Varincias Iguais e Desconhecidas

    Exemplo 1: Criar o arquivo solvente.sta conforme dados apresentados no Quadro 5.1.

    Quadro 5.1 Resultados das absorbncias para dois tipos de solventes

    Tratamento Repetio Absorbncia

    1 1 0,6286

    1 2 0,6143

    1 3 0,5826

    1 4 0,7498

    1 5 0,6060

    2 1 0,4748

    2 2 0,4321

    2 3 0,4309

    2 4 0,5010

    2 5 0,4094

    (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 5.1, onde a opo a ser escolhida ser t-test, independent, by groups:

  • Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

    82

    Figura 5.1 Estatsticas bsicas e tabelas

    (2) Clique no boto [OK] e aparecer a janela apresentada na Figura 5.2:

    Figura 5.2 Teste-t para amostras independentes

    (3) Clique no boto [Variables] e selecione as variveis para a anlise (Grouping variable = Tratamento e Dependent variable = Absorbancia), conforme apresentado na Figura 5.3:

    Figura 5.3 Janela de seleo das variveis para a anlise

    (4) Clique no boto [OK] e aparecer a janela apresentada na Figura 5.4:

  • Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

    83

    Figura 5.4 Teste-t para amostras independentes

    (5) Clique no boto [Summary] e o resultado est apresentado na Figura 5.5:

    Figura 5.5 Resultado do teste-t para os dois solventes

    Interpretao: Da figura anterior conclui-se que:

    - Mdias amostrais: 1x =0,63626

    2x =0,44964

    - Desvios padro amostrais: s1=0,06563

    s2=0,03725

    1) Teste de homogeneidade de varincias

    As hipteses a serem testadas esto apresentadas a seguir:

    H0: 21 = 22 significa que h homogeneidade de varincia

    Ha: 21 > 22 significa que no h homogeneidade de varincia

    Tipo do teste: unilateral

    Importante: O STATISTICA sempre faz um teste bilateral. No exemplo, sendo um teste unilateral, deve-se dividir o valor p por dois. Assim, p=0,2983/2=0,1491. Sendo assim, no se pode rejeitar a hiptese nula e conclui-

    se que as varincias podem ser consideradas homogneas (p=0,1491).

  • Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

    84

    2) Teste de igualdade de mdias

    As hipteses a serem testadas esto apresentadas a seguir:

    H0: 1 = 2 significa que no h diferena entre as mdias de absorbncia com relao ao tipo de solvente

    Ha: 1 2 significa que h diferena entre as mdias de absorbncia com relao ao tipo de solvente

    Tipo do teste: bilateral

    Da Figura 5.5, t=5,5301 (p=0,0006), ou seja, a probabilidade de t 5,5301

    ocorrer devido ao acaso. Sendo assim, rejeita-se a hiptese nula e conclui-se que existe diferena estatisticamente significativa entre as mdias ao nvel de significncia de 0,06% (0,0006 x 100).

    Outra maneira de calcular o valor p:

    (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 5.6, onde a opo a ser escolhida ser Probability calculator:

    Figura 5.6 Estatsticas bsicas e tabelas

    (2) Selecione as seguintes opes:

    Distribuition: t (Student);

    Two-tailed (teste bilateral);

    (1-Cumulative p);

    t=5,530084 (valor encontrado pelo t-test for Independent Samples)

    df = 8 (graus de liberdade)

    (3) Clique no boto [Compute] e o resultado est apresentado na Figura 5.7:

  • Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

    85

    Figura 5.7 Janela para clculo do valor p do teste

    Note que encontra-se o valor p exatamente igual ao descrito pelo T-Test for Independent Samples, conforme apresentado na Figura 5.5.

    Diagrama de caixas (BOX PLOT )

    (1) Na janela da Figura 5.4, para construir o diagrama de caixas, clique no boto [Box & whisker plot] e o grfico resultante est apresentado na Figura 5.8:

    Figura 5.8 Diagrama de caixas para os dois tipos de solventes

    Interpretao: Pela Figura 5.8, pode-se considerar que h homogeneidade de varincia e que a mdia da absorbncia no solvente 1 maior com relao ao

    solvente 2.

    Grfico normal de probabilidades por tratamento

    (1) Na janela da Figura 5.4, clique na aba [Advanced], aparecer a janela apresentada na Figura 5.9:

  • Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

    86

    Figura 5.9 Teste-t para amostras independentes

    (2) Na janela da Figura 5.9, clique no boto [Categorized normal plot] e o grfico

    resultante est apresentado na Figura 5.10:

    Figura 5.10 Grfico normal de probabilidades por tratamento

    Exemplo 2: Criar o arquivo tomate.sta conforme dados apresentados no

    Quadro 5.2.

    Quadro 5.2 Resultados de produo de dois tipos de adubos em tomateiro

    Tratamento Repetio Produo

    1 1 29,9

    1 2 11,4

    1 3 25,3

    1 4 16,5

    1 5 21,1

    2 1 26,6

    2 2 23,7

    2 3 28,5

    2 4 14,2

    2 5 17,9

    2 6 24,3

  • Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

    87

    Fonte: Box, Hunter & Hunter

    (1) Repetir os cinco primeiros passos do Exemplo 1, porm selecionando as seguintes variveis para a anlise: Grouping variable = Tratamento e Dependent variable = Producao. O resultado do teste est apresentado na Figura 5.11:

    Figura 5.11 Resultado do teste-t para a produo dos dois diferentes tipos de adubos

    1) Teste de homogeneidade de varincias

    As hipteses a serem testadas esto apresentadas a seguir:

    H0: 21 = 22 significa que h homogeneidade de varincia

    Ha: 21 > 22 significa que no h homogeneidade de varincia

    Tipo do teste: unilateral

    Da Figura 5.11, F=1,7792 (p=0,5400/2=0,2700) significa que no se pode rejeitar a hiptese nula, ou seja, as varincias podem ser consideradas homogneas.

    2) Teste de igualdade de mdias

    As hipteses a serem testadas esto apresentadas a seguir:

    H0: 1 = 2 significa que no h diferena entre as mdias de produo

    com relao ao tipo de adubo

    Ha: 2 > 1 significa que a mdia da produo do adubo tipo 1 menor

    que a mdia da produo do adubo tipo 2

    Tipo do teste: unilateral

    Da Figura 5.5, F=3,1046 (p=0,6677/2=0,3339) significa que no se pode rejeitar a hiptese nula, ou seja, no existe diferena estatisticamente

    significativa entre as mdias.

    5.1.2. Amostras Independentes com Varincias Desiguais e Desconhecidas

    Exemplo 3: Criar o arquivo variedade.sta conforme dados apresentados no

    Quadro 5.3.

  • Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

    88

    Quadro 5.3 Resultados do rendimento em kg/ha de duas variedades de milho

    Varied_A Varied_B

    1300 1800

    1350 1600

    1250 1900

    1400 1850

    1200 1750

    2500

    (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 5.12, onde a opo a ser escolhida ser t-test,

    independent, by variables:

    Figura 5.12 Estatsticas bsicas e tabelas

    (2) Clique no boto [OK] e aparecer a janela apresentada na Figura 5.13:

    Figura 5.13 Teste-t para amostras independentes

    (3) Clique no boto [Variables] e selecione as variveis para a anlise (First variable (group) list - Varied_A e Second variable (group) list - Varied_B), conforme apresentado na Figura 5.14:

  • Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

    89

    Figura 5.14 Janela de seleo das variveis para a anlise

    (4) Clique no boto [OK] e aparecer a janela apresentada na Figura 5.15:

    Figura 5.15 Teste-t para amostras independentes

    (5) Clique no boto [Summary] e o resultado est apresentado na Figura 5.16:

    Figura 5.16 Resultado do teste-t para as duas variedades

    1) Teste de homogeneidade de varincias

    As hipteses a serem testadas esto apresentadas a seguir:

    H0: 2A = 2B significa que h homogeneidade de varincia

    Ha: 2B > 2A significa que no h homogeneidade de varincia

    Tipo do teste: unilateral

  • Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

    90

    Da Figura 5.16, F=15,5200 (p=0,0200/2=0,0100) significa que rejeita-se a hiptese nula, ou seja, as varincias no podem ser consideradas homogneas.

    Neste caso, como as varincias so heterogneas, o teste-t deve ser calculado com varincias separadas.

    (6) Na janela da Figura 5.15, clique na aba [Options] e selecione a opo t-test with separate variance estimates, conforme apresentado na Figura 5.17:

    Figura 5.17 Teste-t para amostras independentes

    (7) Clique no boto [Summary] e o resultado est apresentado na Figura 5.18:

    Figura 5.18 Resultado do teste-t para as duas variedades com varincias desiguais

    2) Teste de igualdade de mdias

    As hipteses a serem testadas esto apresentadas a seguir:

    H0: A = B significa que no h diferena entre as mdias de produo

    com relao ao tipo de variedade

    Ha: A B significa que h diferena entre as mdias de produo com

    relao ao tipo de variedade

    Tipo do teste: bilateral

    Da Figura 5.18, t=-4,5464 (p=0,0043), ou seja, rejeita-se a hiptese nula e

    conclui-se que existe diferena estatisticamente significativa entre as mdias de produo com relao ao tipo de variedade.

    (8) Na janela da Figura 5.15, para construir o diagrama de caixas, clique no boto [Box & whisker plot] e o grfico resultante est apresentado na Figura 5.19:

  • Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

    91

    Figura 5.19 Diagrama de caixas para as duas variedades de milho

    Interpretao: Pela Figura 5.19, visvel que a varincia da Variedade A menor que a da Variedade B e que a mdia na Variedade B maior com relao

    Variedade A.

    5.1.3. Amostras Dependentes (Dados Pareados)

    Exemplo 4: Criar o arquivo solas.sta conforme dados apresentados no Quadro 5.4.

    Quadro 5.4 Resultados do desgaste de solas de sapatos, confeccionadas com dois tipos diferentes de materiais

    Criana Material_A Material_B

    1 13,2 14,0

    2 8,2 8,8

    3 10,9 11,2

    4 14,3 14,2

    5 10,7 11,8

    6 6,6 6,4

    7 9,5 9,8

    8 10,8 11,3

    9 8,8 9,3

    10 13,3 13,6

    Neste experimento, cada criana usou um tipo de material diferente de

    solado em cada um de seus sapatos, caracterizando a dependncia entre as medidas, pois numa mesma criana so realizadas duas medidas de desgaste nos dois tipos de materiais.

    As hipteses a serem testadas esto apresentadas a seguir:

    H0: A = B significa que no h diferena entre as mdias de desgaste

    com relao ao tipo de material

  • Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

    92

    Ha: ]B > A significa que a mdia de desgaste do material A menor que a mdia de desgaste do material B

    Tipo do teste: unilateral

    (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer

    a janela apresentada na Figura 5.20, onde a opo a ser escolhida ser t-test, dependent samples:

    Figura 5.20 Estatsticas bsicas e tabelas

    (2) Clique no boto [OK] e aparecer a janela apresentada na Figura 5.21:

    Figura 5.21 Teste-t para amostras dependentes

    (3) Clique no boto [Variables] e selecione as variveis para a anlise (First variable list - Material_A e Second variable list (optional) - Material_B), conforme apresentado na Figura 5.22:

  • Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

    93

    Figura 5.22 Janela de seleo das variveis para a anlise

    (4) Clique no boto [OK] e aparecer a janela apresentada na Figura 5.23:

    Figura 5.23 Teste-t para amostras dependentes

    (5) Clique no boto [Summary] e o resultado est apresentado na Figura 5.24:

    Figura 5.24 Resultado do teste-t para amostras dependentes

    Concluso: Da Figura 5.24, t=-3,3489 (p=0,0085/2=0,0043), ou seja,

    rejeita-se a hiptese nula e conclui-se que a mdia de desgaste do material A menor que a mdia de desgaste do material B.

  • Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

    94

    Selecionando o mtodo incorreto

    (1) Refazer o teste anterior da mesma forma que no Exemplo 3, escolhendo a opo para amostras independentes (t-test, independent, by variables). Selecione as variveis conforme mostrado na Figura 5.25:

    Figura 5.25 Teste-t para amostras independentes

    (2) Clique no boto [Summary] e o resultado est apresentado na Figura 5.26:

    Figura 5.26 Resultado do teste-t para amostras independentes

    1) Teste de homogeneidade de varincias

    Da Figura 5.26, F=1,0555 (p=0,9372/2=0,4686) significa que no se pode

    rejeitar a hiptese nula, ou seja, as varincias podem ser consideradas homogneas.

    2) Teste de igualdade de mdias

    Da Figura 5.26, t=-0,3689 (p=0,7165/2=0,3582) significa que no se pode rejeitar a hiptese nula, ou seja, a mdia de desgaste do material A no menor

    que a mdia de desgaste do material B.

    Sendo assim, no se rejeita a hiptese nula, s que, ESTA CONCLUSO NO VERDADEIRA. Por isto, estudamos anteriormente o delineamento da pesquisa.

  • Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

    95

    A seguir, o grfico mostra como as mdias esto prximas, pois aqui no foi retirado o efeito de meninos.

    (3) Na janela da Figura 5.25, para construir o diagrama de caixas, clique no boto [Box & whisker plot] e o grfico resultante est apresentado na Figura 5.27:

    Figura 5.27 Diagrama de caixas para os dois tipos de materiais

    5.1.4. Intervalo de Confiana para a Diferena de Duas Mdias no Caso de Dados Pareados

    (1) Criar uma nova varivel (DifB_A) no arquivo solas.sta, que representa a

    diferena entre os valores de desgastes dos dois materiais. Para isso, clique com o boto da direita em cima da varivel Material_B, selecione a opo [Add variable]

    e defina a nova varivel conforme apresentado na Figura 5.28:

    Figura 5.28 Janela de especificao da varivel DifB_A

  • Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

    96

    (2) Clique no boto [OK] e se aparecer a expresso Expression OK. Recalculate the variable now? clique no boto [SIM]. O arquivo resultante est apresentado no Quadro 5.5:

    Quadro 5.5 Resultados do desgaste de solas de sapatos, confeccionadas com dois tipos diferentes de materiais

    Criana Material_A Material_B DifB_A

    1 13,2 14,0 0,8

    2 8,2 8,8 0,6

    3 10,9 11,2 0,3

    4 14,3 14,2 -0,1

    5 10,7 11,8 1,1

    6 6,6 6,4 -0,2

    7 9,5 9,8 0,3

    8 10,8 11,3 0,5

    9 8,8 9,3 0,5

    10 13,3 13,6 0,3

    (3) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 5.29, onde a opo a ser escolhida ser

    Descriptive statistics:

    Figura 5.29 Estatsticas bsicas e tabelas

    (4) Clique no boto [OK], selecione a nova varivel criada (DifB_A) clicando no boto [Variables] e na aba [Advanced] selecione as opes conforme apresentado na Figura 5.30:

  • Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

    97

    Figura 5.30 Estatsticas descritivas

    (5) Clique no boto [Summary] e o resultado est apresentado na Figura 5.31:

    Figura 5.31 Resultado do intervalo de confiana para a varivel DifB_A

    Interpretao: Da Figura 5.31 estimasse que a verdadeira diferena mdia

    do desgaste das solas entre os d