Post on 12-Feb-2018
O AMBIENTE DO SPSS - Capítulo 2
EXPLORANDO OS DADOS – Capítulo 3
Grupo de Estatística
Aluna: Natália Ambrósio
Andy Field
SPSS/PC (1984, em DOS. Primeira versão para computador
portátil)
SPSS/PC+ (1986 (em DOS)
1992 – versão 6 à 16
SPSS Statistics 17 (Windows & Mac)
PASW Statistics 17
IBM SPSS Statistics 18
IBM SPSS Statistics 19
IBM SPSS Statistics 20
Vá direto a um caso
Vá direto a uma variável
Informações sobre uma variável
Inserir um novo caso no editor de dados
Cria uma nova variável a esquerda
Criando uma variável
• Organização do editor do SPSS:
Cada linha reprenta os dados de um objeto (indivíduo)
enquanto que cada coluna representa uma variável
Criando uma variável
Qualquer variável medida sobre os mesmos
participantes (uma medida repetida) deve ser
representada por várias colunas (cada coluna
representando um nível da variável de medidas
repetidas). Entretanto, qualquer variável que
define grupos diferentes de pessoas (como
ocorre com o delineamento entre grupos é
utilizado e diferentes participantes são
atribuídos a diferentes níveis da variável
independente) é definida utilizando uma única
coluna.
Níveis de medida
• Nominal – os números apenas representam nomes (Ex.: sim ou não, categorias, variável codificadora)
• Ordinal – Informa que as coisas ocorreram e também a ordem em que elas ocorreram
• Escalar – Dados medidos por uma escala com determinados valores (Ex.: escore de 1 a 10)
Muitos dos procedimentos estatísticos descritos
no livro são testes paramétricos baseados na
distribuição normal
TESTES PARAMÉTRICOS
Se você utiliza um teste paramétrico quando
seus dados não são paramétricos, os resultados
talvez não sejam apropriados.
HIPÓTESES DOS TESTES
PARAMÉTRICOS
Dados normalmente distribuídos
Homogeneidade de variância
Dados por intervalo
Independência
HIPÓTESES DOS TESTES PARAMÉTRICOS
• Homogeneidade de variância
Em delineamentos correlacionais, essa hipótese significa que a
variância de uma variável deve ser estável em relação a todos
os níveis da outra variável
HIPÓTESES DOS TESTES
PARAMÉTRICOS
• Dados por intervalo
Os dados devem ser mensurados pelo menos ao nível ordinal, a distância entre os pontos da sua escala deve ser igual em todas as partes ao longo da escala
Ex.: Escala de ansiedade
1 2 3 4 5 6 7 8 9 10
HIPÓTESES DOS TESTES
PARAMÉTRICOS
• Independência
• Os dados de participantes diferentes são
independentes
• O comportamento de um participante não
influencia no comportamento do outro
Testar a hipótese de dados
normalmente distribuídos
• O SPSS possui diferentes opções para construção de gráficos: Graphs
• HISTOGRAMA: Visualizar a forma dos dados
Graphs Interative Histograma
• DIAGRAMA DE CAIXA DE BIGODES: Encontrar valores atípicos
Graphs Boxplot
Sequência
• Testar a hipótese de normalidade
• Olhar para a distribuição da amostra
• Plotar com que frequência cada escore ocorre
• Corrigir erros nos dados
• Detectar valores atípicos
ESTATÍSTICA DESCRITICA
• Análisado as distribuições dos escores
• Detectado e corrigido um valor digitado incorretamente
• Detectar valores atípicos
Analyze Descriptive Statistics Frequencies…
Statistics
Hygiene (Day 1 of
Glastonbury Festival) Hygiene (Day 2 of
Glastonbury Festival) Hygiene (Day 3 of
Glastonbury Festival)
N Valid 810 264 123
Missin
g 0 546 687
Mean 1,7711 ,9609 ,9765
Std. Error of Mean ,02437 ,04436 ,06404
Median 1,7900 ,7900 ,7600
Mode 2,00 ,23 ,44a
Std. Deviation ,69354 ,72078 ,71028
Variance ,481 ,520 ,504
Skewness -,004 1,095 1,033
Std. Error of Skewness ,086 ,150 ,218
Kurtosis -,410 ,822 ,732
Std. Error of Kurtosis ,172 ,299 ,433
Range 3,67 3,44 3,39
Minimum ,02 ,00 ,02
Maximum 3,69 3,44 3,41 a. Multiple modes exist. The smallest value is shown
Output
ASSIMETRIA E CURTOSE
• Os valores deverão ser 0 em uma distribuição normal
• Valores de assimetria positivos indicam uma
concentração de valores à esquerda enquanto um valor
negativo mostra uma concentração de valores a direita
• Valores positivos da curtose indicam uma distribuição
pontiaguda e valores negativos indicam uma achatada
• Quanto mais distantes estes valores estiverem de 0,
maior a possibilidade de que os dados não sejam
normais
• Os valores reais da assimetria e curtoses não
são eles próprios, informativos.
• Precisamos padronizar os valores, isto é,
transformá-los em escore-z.
PADRONIZAÇÃO
• Uma maneira de olhar as distribuições de frequências é
em termos de probabilidade
• Fornecer uma idéia da probabilidade de um dado
escore acontecer.
• Processo de converter o escore bruto de uma
distribuição em escore z
O que é o ESCORE Z ????
• Escore padronizado
• Ajuda a entender onde um determinado escore se
encontra em relação aos demais numa distribuição
• Indica o quanto acima ou abaixo da média um escore
está em termos de unidades padronizadas de
desvio padrão
ESCORE-Z
Se você conhece o z, você pode descobrir
qual a proporção de casos que corresponde a
ele ou, se você conhece a proporção de
casos. Você pode descobrir qual o z que lhe
corresponde
Statistics
Hygiene (Day 1 of
Glastonbury Festival) Hygiene (Day 2 of
Glastonbury Festival) Hygiene (Day 3 of
Glastonbury Festival)
N Valid 810 264 123
Missin
g 0 546 687
Mean 1,7711 ,9609 ,9765
Std. Error of Mean ,02437 ,04436 ,06404
Median 1,7900 ,7900 ,7600
Mode 2,00 ,23 ,44a
Std. Deviation ,69354 ,72078 ,71028
Variance ,481 ,520 ,504
Skewness -,004 1,095 1,033
Std. Error of Skewness ,086 ,150 ,218
Kurtosis -,410 ,822 ,732
Std. Error of Kurtosis ,172 ,299 ,433
Range 3,67 3,44 3,39
Minimum ,02 ,00 ,02
Maximum 3,69 3,44 3,41 a. Multiple modes exist. The smallest value is shown
ESCORE Z da Assimetria
• Escore Z da Assimetria
• 1º dia – -0,004/0,086 = 0,047
• 2º dia – 1,095/0,150 = 7,300
• 3º dia – 1,033/0,218 = 4,739
• Os dois últimos valores estão acima de 3,59, o valor
limite da distribuição normal padrão, pois, esta
distribuição coloca 99,9% entre ±3,59
Interpretando…
• APÊNDICE
• Escore-z do primeiro dia 0,047
• Porção menor (área acima do valor 0,047):
0,4840 – 48,40% dos escores estão concentrados
acima de 0,047
• Porção maior: 0,5159
ESCORE Z da Curtose
• Escore Z da Curtose
• 1º dia = -2,38
• 2º dia = 2,75
• 3º dia = 1,69
• Curtose significatica em todos os três dias
Conclusão da hipótese de dados
normalmente distribuídos
A distribuição normal e os escores-z nos permitem ir,
um passo além dos nossos dados, no sentido que de um
conjunto de escore podemos calcular a probabilidade
que um determinado escore irá acontecer.
UTILIZANDO OS ESCORES Z PARA
ENCONTRAR VALORES ATÍPICOS
• Analyze Descriptive Statistics Descriptives
• O SPSS criará uma nova variável. Utilizamos estes
escores e contamos quantos escores estão situados
dentro de certos limites previamente definidos
• Considerar valores absolutos, e em uma distribuição
normal esperaríamos que 5% acima de 1,96, 1% acima
de 2,58 e praticamente nenhum acima de 3,59
CORRIGINDO PROBLEMAS NOS DADOS
• Remover o caso
• Apagar os dados da pessoa que forneceu os
valores atípicos
• Mas, será que esse valor não é representante
da população???
CORRIGINDO PROBLEMAS NOS DADOS
• Substituir o valor
• Mude o dado para uma unidade maior do que o
próximo valor mais alto do conjunto de dados
• Inverta o escore-z
• X= z * s+ µ
• A média mais dois desvios padrão
CORRIGINDO PROBLEMAS NOS DADOS
• De todas as opções - transformar os dados é talvez a
melhor, pois em vez de mudar um único valor, um
alteração é feita em todos eles
• Você não está apenas selecionando um escore para
ser alterado, mas fazendo algo para reduzir o
impacto dos valores extremos
• A idéia é mudar todos os dados para corrigir
problemas relacionado ao modelo ou valores atípicos
FUNÇÃO NOME EXEMPLO
(ENTRADA) SAÍDA
MEAN (?, ?, ..)
Média Mean (day1, day2, day3)
Para cada linha, o SPSS calcula o valor médio dos escores da higiene ao longo dos três dias do festival
SD (?, ?,..)
Desvio Padrão
SD(day1, day2,day3)
Para cada linha, o SPSS calcula o desvio padrão dos valores nas colunas rotuladas como day1, day2 e day3
SUM (?, ?,..)
Soma SUM
(day1, day2) Para cada linha, o SPSS adiciona o valor das linhas das colunas denominadas day1 e day2
SQRT (?)
Raiz Quadrada
SQRT (day2)
Produz uma nova coluna que contém a raiz quadrada de cada valor da coluna denominada day2.
ABS (?)
Valor Absoluto
ABS(day1)
Produz uma variável que contém o valor absoluto dos valores da coluna denominada day1 (valores absolutos são aqueles em que todos os resultados são positivos. Assim, 5 torna-se 5.
LG10 (?)
CORRIGINDO PROBLEMAS NOS DADOS
• Transformação logarítmica (log (Xi))
• Tomar o logaritmo de um conjunto esmaga a
cauda direita da distribuição
• É uma boa maneira de reduzir uma
assimetrica positiva
LOG10(day1+1)
O menor valor é 0, soma-se o 1 para assegurar que todos
os valores sejam maiores que 0
EXPLORANDO GRUPOS DE DADOS
• Algumas vezes temos dados em que existem diferentes grupos de pessoas (homens e mulheres, universidades diferentes, pessoas com e sem depressão)
• FUNÇÃO: split file (dividir arquivo)
• Especifica variável de grupo
• Arquivo SPSSExam.sav
EXPLORANDO GRUPOS DE DADOS
• Se você quiser obter estatísticas separadas para cada uma das
universidades, podemos dividir o arquivo e seguir utilizando o
comando Frequencies
• Data Split File
EXPLORANDO GRUPOS DE DADOS
• Quando você tiver terminado com o comando Split, lembre-se de desligá-lo
• Split File – Analyze all cases, do not create groups
TESTANDO SE UMA DISTRIBUIÇÃO É
NORMAL
• Olhar para os histogramas é uma opção, mas eles
nada informam sobre a distribuição estar próxima o
suficiente da normalidade
• Realizar um teste objetivo para decidir se uma
distribuição é ou não-normal.
TESTES
• Kolmogorov-Smirnov e Shapiro-Wilk
• Eles comparam escore de uma amostra a uma distribuição normal modelo de mesma média e variância dos valores encontrados na amostra
• Não-significativo (p>0.05), os dados não diferem significativamente de uma distribuição normal
• Significativo (p<0.05), significativamente diferente de uma distribuição normal
TESTES (limitações)
• Com amostras grandes é muito fácil obter valores significativos a partir de pequenos desvios da normalidade
• Um resultado significativo não necessariamente nos informa se o desvio da normalidade é suficiente para prejudicar os procedimentos estatísticos
• De qualquer forma utilize esses teste, mas faça diagrama dos dados bem como tente obter uma decisão sobre a extensão da não-normalidade
As duas distribuições se desviam da
normalidade (Sig.<0,05)
Os desvios de normalidade mostrados
nos histogramas são significativos
TESTANDO A HOMOGENEIDADE DA
VARIÂNCIA
• Essa hipótese significa que a medida que você avança
entre os níveis de uma variável, a variância da outra
não deve mudar
Interpretando…
• Considerando que estamos comparando as duas
universidades nos escores de numerácia e
exame do SPSS separadamente
• Devemos transformar os escores de numerácia,
mas, não os do exame
Interpretando…
• Representação do Teste Levene
• Letra F, dois Graus de Liberdade e Sig
• Exame SPSS - F (1,98)= 2,28, ns
• Numerácia – F (1,98)= 7,37, p<0,01