Verificação da Normalidade

28
Verificação da Normalidade Para verificarmos se um conjunto de dados, uma amostra, possui distrib. NORMAL, realizamos um teste de hipótese que cujas hipóteses são: H0: A distribuição dos dados (a variável) pode ser considerada como tendo distribuição Normal; X H1:A distribuição dos dados (a variável) NÃO pode ser considerada como tendo distribuição Normal. Vários testes foram desenvolvidos para verificar a hipótese acima, teste do Qui-Quadrado para Normalidade, teste de Kolmogorov-Smirnov, teste de Shapiro-Wilkin (indicado quando a amostra for ≤ 20)dentre outros. erificaremos a seguir como realizar um testes de no

description

Verificação da Normalidade. Para verificarmos se um conjunto de dados, uma amostra, possui distrib. NORMAL, realizamos um teste de hipótese que cujas hipóteses são:. H0: A distribuição dos dados (a variável) pode ser considerada como tendo distribuição Normal; - PowerPoint PPT Presentation

Transcript of Verificação da Normalidade

Page 1: Verificação da Normalidade

Verificação da Normalidade

Para verificarmos se um conjunto de dados, uma amostra, possui distrib. NORMAL, realizamos um teste de hipótese que cujas hipóteses são:

H0: A distribuição dos dados (a variável) pode ser consideradacomo tendo distribuição Normal; XH1:A distribuição dos dados (a variável) NÃO pode ser considerada como tendo distribuição Normal.

Vários testes foram desenvolvidos para verificar a hipótese acima, testedo Qui-Quadrado para Normalidade, teste de Kolmogorov-Smirnov, testede Shapiro-Wilkin (indicado quando a amostra for ≤ 20)dentre outros.

Verificaremos a seguir como realizar um testes de normalidade no MINITAB.

Page 2: Verificação da Normalidade

Em Basics Statistics vamos em Normality Test...,

Na tela nova selecionamos a var.que desejamos testar (via Select) e optamos por um dos 3 testes disponíveis. Kolmogorov-Smirnov é o mais conhecido, porém realizaremos o teste Shapiro-Wilk,por estar sendo mais requisitado atualmente.

Então seleciono a var. dpeso evou testar se ela possui ou nãodist. Normal. OK

Page 3: Verificação da Normalidade

O resultado é um gráficocujos pontos em devem estar bastante próximos da retaem vermelho. MAS acreditemesmo no p-value fornecidopelo teste.Neste caso um p = 0.64 nos leva a não rejeitar H0, logo assumimos que a var. possui distribuição Normal.

Vc irá verificar normalidade de vars. numéricas contínuas ou discretas e vars. categóricas ordinais, jamais de vars. categóricas nominais.

Exemplo em que rejeitamos a norma-lidade da variável,p < 0.05.

Page 4: Verificação da Normalidade

INTERVALOS DE CONFIANÇA

Estimativas como média, mediana, desvio padrão,..., são conhecidas co-mo estimativas pontuais, estimativas pontuais, pois através de um único valor desejamos expres-sar as características de nossa variável.

Veremos agora como expressar nossas variáveis através de um conjunto de valores, ou seja, um intervalo com limite inferior e superior que conte-nha nosso parâmetro e no qual se possa depositar um grau de confiança de que o verdadeiro valor (desconhecido) esteja nele contido. Este tipo de estimação é chamada de estimação por intervalos e estes são conhecidos como INTERVALOS DE CONFIANÇA.

Os IC têm sempre a seguinte forma :

Estimativa pontual Valor crítico da distrib.*Erro padrão est. É na escolha do valor crítico da distribuição que definimos o grau de

confiança (1 - ) que iremos associar ao nosso intervalo. Com um = 0.05 temos um intervalo de confiança de 95%, de = 0.01, a confiança é 99%

Page 5: Verificação da Normalidade

Calcularemos um IC de 95% (grau de confiança) para a média como exemplo, todos os demais IC’s seguem a mesma lógica, obviamente cada um utilizará o valor crítico da distribuição que for pertinente. utilizará o valor crítico da distribuição que for pertinente.

Desejamos construir um intervalo de confiança de 95% para uma média (Xm).Vimos na aula de testes de hipóteses que se uma população tem distribuição Normal com média µ e dp , então a distr. de Xm em amostras de tamanho N será Normal com média µ e dp = /rqN = Erro padrão

Então, para a dist. de Xm, podem-se estabelecer os valores de z1 e z2 dadistribuição Normal reduzida , tais que a probabilidade de

µ - z1*erro padrão < Xm < µ + z2*erro padrão = 95% , então se (1 - ) = 95% , = 0.05, que na tabela da Normal reduzida equi-vale ao valor 1.96. Substituindo µ e pelas estimativas fornecidas pelos

meus dados tenho a fórmula para o cálculo do meu IC (95%):

Xm - 1.96*s/rqN < Xm < Xm + 1.96*s/rqN ou Xm 1.96*Erro padrão

Page 6: Verificação da Normalidade

Exemplo: Em uma amostra de tamanho 10 de neonatos aidéticos o peso médio foi de 700 g. com dp = 100g. Estabeleça um IC (95%) para o peso dos neonatos aidéticos.

700 1.96* 100/rq10 = 700 61.98 = IC (95%) = (638.01 ; 761.98)

Se calculamos um IC de (99%), então = 0.01 corresponde a 2.58 na Normal reduzida temos 700 2.58*100/rq10= 700 81.59 = (618.4 ; 781.5)Observe que o intervalo de 95% tem uma amplitude menor que o de 99%,logo quanto mais confiança desejo na estimativa, maior será o intervalo.

Se ao invés de N = 10 minha amostra fosse de N = 30 o intervalo seria de700 1.96*100/rq30= 700 35.78 = (664.2 ; 735.8)

Observe que o intervalo de N = 30 tem uma amplitude menor que o de N =10, logo quanto maior a minha amostra menor será meu intervalo,

mais preciso.

Page 7: Verificação da Normalidade

Interpretação comum do IC (95%): Se coleto apenas uma e somente uma amostra, posso afirmar que tenho 95% de chance que o parâmetro está contido no intervalo estimado. Note que isto não significa que posso, ou devo, afirmar que tenho 95% de chance que o parâmetro de outra amostra esteja contido no intervalo anterior.

São calculados IC para praticamente todos os parâmetros estimados na Estatística: média, variância, mediana, coeficiente de correlação, diferen-ças de médias, proporções, odds ratio, sensibilidade, especificidade, coeficientes de regressão, quartis, diferença de proporções, médias pareadas,... Os IC’s para a diferença entre médias (independentes ou pareadas) são particularmente úteis, pois a sua construção (observação) dispensa até a realização do teste estatístico.

Se o IC das diferenças contém o valor 0, quer dizer que existe uma boa chance de uma média ser equivalente à outra. X - Y = 0 ; X = Y.

Interpretação correta: Se realizar 100 procedimentos iguais a este , no mí-nimo em 95 deles a média obtida estará dentro do intervalo estimado.

Page 8: Verificação da Normalidade

Se o IC das diferenças não contém o valor 0, quer dizer que existe uma boa chance de uma média ser diferente da outra. X - Y 0 ; X Y.

Testes estatísticos que envolvem inferências a respeito de uma ou duas médias – Família dos testes “t”

Page 9: Verificação da Normalidade

OBJETIVO : Comparar a média de uma amostra com a média conhecida de uma população.

Variável envolvida: 1-A variável da qual será obtida a média amostral que deve ser numérica (contínua ou discreta). Há grande controvérsia quanto às ordinais, teoricamente não, mas no mundo real utiliza-se bastante também as ordinais.

Exemplos:- A média da pressão arterial dos policiais é equivalente à média da população em geral?-O no. de crises epilépticas dos pac.com cisticercose é equivalente ao no.de crises da pop. em geral ?-O nível educacional dos pais de formandos da universidade pública é equivalente ao nível da pop. em geral.

SUPOSIÇÕES:1 A variável precisa ter distribuição normal, é necessário realizar um teste de normalidade antes, c.c, a eficácia do teste é bastante questionável.

2 As observações (xi) são independentes uma das outras.

Page 10: Verificação da Normalidade

H0: = µ X H1: µ ou H0: A média amostral é equivalente à média da população X H1: Não é equivalente (Bicaudal)

Tese de hipótese associado

Teste estatístico: Se além da média da população também forconhecido o dp é o teste z para uma amostra (raríssimo).Quando estimamos o dp da nossa amostra será o teste t para uma amostra.

Procedimento: a estatística tem distribuição t com n-1 graus de liberdade.

Então acho o valor da est. e comparo com o valor da distribuição t com n-1 g.l. e nível de significância adotado. Normalmente (99.9%) = 0.05.OU (mais comum) verifico qual a probabilidade do valor da est. numadistr. t com n-1 g.l. e comparo com = 0.05. Se for menor rejeito HO

Page 11: Verificação da Normalidade

Exemplo: Foram coletadas amostras de sangue de 18 pacientes com câncer e medida uma substância X, onde obtivemos média = 3.2 e dp = 1.1. Sabe que na população o valor médio desta substância é 2.5. Há diferença desta substância entre os pac. com câncer e a pop. em geral ?

Substituindo na fórmula temos: (3.2 - 2.5)/(1.1/rq18) = 2.69. O valor de 2.69 numa distr. T com 17 g.l. equivale a uma ‘p value’ de 0.0146, menor que 0.05, portanto rejeito H0.

Como meu teste era bicaudal eu concluo que os pac. com câncer têmmédia superior desta substância que a pop. em geral.

Graus de liberdade: Conceito ligado ao número de dados disponíveis(livres) para o cálculo da estatística; número de componentes indepen-dentes menos o número de parâmetros estimados.

Page 12: Verificação da Normalidade

Sabe-se que o peso médio das jogadoras russas de voley é de 65 kq. A CBV quer saber se as jogadoras brasileiras possuem peso médio equivalente ou não a das russas, paratanto coletou uma amostra de jogadoras e pesou-as, obtendoos valores ao lado.

Percorrendo o nosso velho caminho ‘Stats’, ‘Basic Statistics’, vamos em ‘1- Sample t’.

Na nova janela colocamos a var. e o valor que queremos com parar (65) com a nossa média.Ok

Page 13: Verificação da Normalidade

No output temos: o teste de hipótese explicitado, as estatísticas da var.um intervalo de confiança da média da var., o valor da estatística e probabilidade a ele associado.

Logo se meu p-value < 0.001 eu rejeito H0 (0.001 < 0.05), como a médiadas brasileiras é inferior à das russas, concluo que as brasileiras possuem média significativamente inferior à das russa.

Clicando em ‘Options’, na tela seguinte controlamosse o teste será bicaudal ou monocaudal.

Page 14: Verificação da Normalidade

OBJETIVO : Comparar as médias de duas amostras independentes.

Variáveis envolvidas:

Salientando que comparar as médias significa verificar se há ou não diferença entre os valores de cada amostra, realizamos uma extrapolaçãoa partir do resultado.

1-A var. referente aos grupos que serão comparados, que pode ser cat.nominal (Com/Sem), cat. ordinal ou quantitativas contínuas ou não, desde que categorizadas em 2 categorias (Acima de x/Abaixo de x)

2 - A var. que será propriamente comparada, que deve ser numérica(contínua ou discreta). Há grande controvérsia quanto às ordinais, teoricamente não, mas no mundo real utiliza-se bastante também as ordinais.

Amostras independentes: As unidades amostrais, os elementos daamostra, são diferentes em cada amostra, não há relação, não há vínculo entre eles, são unidades amostrais diferentes em cada amostra.

Page 15: Verificação da Normalidade

SUPOSIÇÃO :1 A variável que será comparada (2) precisa ter distribuição normal, é necessário realizar um teste de normalidade antes, c.c, a eficácia do teste é bastante questionável. O procedimento correto é testar a normalidade para cada nível da var. categorizada

2 As observações (xi) de cada grupo são independentes uma das outras.

Exemplos:- A média da taxa de iodo entre os sexos é equivalente.-A renda média das famílias com filhos é semelhante à renda média das famílias sem filhos.- O valor de ansiedade (IDATE) de pessoas com mais de 1,70 de alturaé equivalente ao valor das pessoas com menos de 1,70

Page 16: Verificação da Normalidade

Graficamente

Tese de hipótese associado

H0: Média da amostra 1 = Média da amostra 2; X H1: Média da amostra Média da amostra 2 (Bicaudal)

Teste estatístico: Verificada e não rejeitada a hipótese denormalidade é o teste t para amostras independentes.

Page 17: Verificação da Normalidade

Procedimento: a estatística onde

tem distribuição t (n1+ n2 - 2) graus de liberdade.

Observe que temos duas médias e dois desvios padrões estimados (um de cada amostra), se os 2 desvios padrões não forem equivalentes,há umamodificação na fórmula (não apresentaremos) e no número de graus de liberdade. Portanto é necessário testar se os dps são ou não equivalentes. Teste da homogeneidade das variâncias.

Então acho o valor da est. e comparo com o valor da distribuição t com (n1+n2 -2) g.l. e nível de significância adotado. Normalmente = 0.05.OU (mais comum) verifico qual a probabilidade do valor da est. numadistr. t com (n1+n2-2) g.l. e comparo com = 0.05. Se for menor rejeito HO

Page 18: Verificação da Normalidade

Exemplo: Duas amostras de 8 pgs foram coletadas. Uma das amostras ingeriu uma caneca de café com uma concentração x de cafeína e a ou-tra ingeriu uma caneca sem cafeína. Após ambos os grupos foramassistir a aula de estatística e contou-se o no. de bocejos de cada aluno. Será que a cafeína influi no grau de atenção ?

Calculo as médias e dps de cada grupo:

Calculo a parte inferior da fórmula desvio padrão conjugado

Calculo a fórmula toda

Então meu teste forneceu o valor de 2.81. O valor de = 0.05 numa dist.t com 14 g.l. é 2,15, como 2.81 > 2.15 Rejeito HO . De outro modo, o valor 2,81 corresponde a uma p-value de 0.015, logo 0.015 < 0.05 Rej.H0

Page 19: Verificação da Normalidade

Uma pesquisa do CRM quer verificarse os oftalmologistas recebem mais porhora de plantão que os ortopedistas. Temos uma coluna com a var. real_hora(contínua) e uma com a variávelMed, onde 1 = Ort. e 2 = Oft. Vamos em ‘Stat’, ‘Basic Stat..,e em2-Sample t. Lembre-se que seria necessário antes testar a normalidade

Aviso que as amostras estão em uma coluna; Coloco a var. real_hem’Samples’ e os grupos em‘Subs-cripts’.

Observe que ao não marcar o campo ‘Assume equal variances’ estou assumindo que as variâncias NÃO são equivalentes. E OK

Page 20: Verificação da Normalidade

Two-sample T for real_horamed N Mean StDev 1 125 32,1 15,3 2 65 34,8 24,9 Difference = mu (1) - mu (2)Estimate for difference: -2,77T-Test of difference = 0 (vs not =): T-Value = -0,82P-Value = 0,414 DF = 89

Temos o tamanho de cada grupocom suas médias e dps, umaestimativa da diferença, o teste de hipótese,o valor do teste, o valor de p-value e o no. de graus de liberdade.

Repare que o no. de g.l. = 89 é diferente de (n1+ n2 - 2) pois assumi que as variâncias não eram equivalentes, mas como sei isto? Testando.

Vamos... em ‘2 Variances’ e na tela resultante preenchemos Samples e Subscri- pts como anteriormene e OK

Page 21: Verificação da Normalidade

Temos um I.C, as estimativas do dp,o Teste F e o de Levene que comparam se dois desvios padrões são ou não equivalentes. O p-value < 0.001 indica que rejeitamos a hipótese H0 de igualdade entre as variância.

Portanto quando rejeito a hipótese de igualdade dos dps.eu não assinaloo quadrado de “Assume equal variances”; se não rejeito a igualdade dasvariâncias eu assinalo o quadrado.

Se clicarmos botão ‘Options’ da tela doteste t para 2 amostras teremos a tela aolado, onde podemos controlar se deseja mos um teste bicaudal (not equal) ou monocaudal (less than ou greater than)

Portanto antes de realizar o teste t para amostras independentes énecessário testar a normalidade e se as variâncias são homogêneas.

Page 22: Verificação da Normalidade

OBJETIVO: Comparar as médias de duas amostras pareadas, correlacionadas, ou seja, não independentes.

Amostras pareadas são aquelas em as medidas são realizadas namesma unidade amostral, o sujeito é controle dele mesmo. A situação mais comum ocorre quando realizamos uma medida antes de algum procedimento, evento, e depois realizamos a mesma medida após o procedimento, evento, na mesma amostra. Entretanto há outras situações, como duas medidas comparáveis em uma unidade amostral, p. ex., comparar o lado direito contra o esquerdo na mesma unidade amostral, ou comparar duas técnicas realizadas na mesma unidade amostral. Variáveis envolvidas:1 - A var. que será propriamente comparada, que deve ser numérica (contínua ou discreta). Há grande controvérsia quanto às ordinais, teoricamente não, mas no mundo real utiliza-se bastante também as ordinais.Tenha atenção, pois na planilha os valores referentes à 1a. medida devemestar numa coluna e os valores referentes à 2a. medida em outra coluna, e, obviamente, as medidas do mesmo unidade amostral na mesma linha.

Page 23: Verificação da Normalidade

Motivos para usarmos este teste e não o teste t para amostras independentes: 1 - O fato da mesma unidade amostral ser utilizada duas vezes introduz uma correlação, a medida do “depois” pode depender, até certo ponto, da medida do “antes”. Exemplo das dietas.

2 - Este teste é mais poderoso que o teste para amostras independentes, uma das maiores fontes de variabilidade é a variabilidade entre os sujeitos, repetindo as medidas nos mesmos sujeitos a variabilidade entre sujeitos é menor (o sujeito é controle dele mesmo), e portanto uma real di-ferença entre as medidas é mais fácil de ser detectada. Amostras menores.

Teste de hipótese associado

H0: A diferença entre as médias = 0; X H1: A diferença entre asmédias 0 Observe que este teste é semelhante ao teste t para uma amostra, teremos uma nova “variável” que é a diferença = Antes - Depois,e testaremos se a sua média difere ou não significativamente de 0 Teste estatístico: Teste t para amostras pareadas ou correlacionadas.

Page 24: Verificação da Normalidade

Procedimento: Exemplificando para facilitar: Temos duas medidas realizadas nos mesmos sujeitos Suj Antes Depois Antes - Depois O passo inicial é computarmos as 1 420 380 40 diferenças e calcularmos a média

2 235 230 5 das diferenças. Repare que a média 3 280 300 -20 das diferenças é igual a diferença 4 360 260 100 das médias. Depois calculo o des 5 305 295 10 vio padrão da diferença = 34.4 6 215 190 25

7 200 200 00 De posse da média e do dp da di- 8 460 410 50 ferença vou realizar um teste t pa- 9 345 330 15 ra uma amostra, comparando a mé 10 375 380 -5 dia da diferença amostral com a mé- Média 319.5 297.5 22 dia conhecida 0

Portanto utilizamos a estatística do teste t para uma amostra: (Média - )/(s/rqn), onde sempre substituiremos por zero, e já sabemos que esta estatística tem uma distribuição t com número de pares -1 graus de liberdade. A conclusão do teste é sempre a mesma:

Page 25: Verificação da Normalidade

Se o t estimado for maior que o t tabelado Rejeito H0, ou se o ‘p-value’ for menor que o nível de significância adotado (0.05) Rejeito H0.

Terminando o exemplo temos (22 - 0)/(34.4/rq10) = 22/10.9 = 2.02Este valor corresponde a uma probabilidade na tabela t com 9 g.l. (no.depares -1) igual a 0.074. Rejeito ou não H0, qual a conclusão?

SUPOSIÇÃO :1 A variável ‘DIFERENÇA’ precisa ter distribuição normal, é necessário realizar um teste de normalidade antes, c.c, a eficácia do teste é bastante questionável. Portanto teste a normalidade davariável Diferença e não a normalidade das variáveis originais.

2 As diferenças (di) são independentes uma das outras.

Page 26: Verificação da Normalidade

Um grupo de 56 crianças obesas foisubmetido a uma dieta, teste se 3 meses após houve redução significativa do peso. Stats, Basic Statistics, e vamos em‘Paired t’.

Na nova tela coloco o peso antesem ‘First sample’ e o peso depoisem ‘Second sample’

Qual tipo de teste posso realizarnesta situação, mono ou bicaudal ?

Page 27: Verificação da Normalidade

Paired T-Test and CI: pesoant; pesodepPaired T for pesoant - pesodep N Mean StDev SE Meanpesoant 56 69,98 9,58 1,28pesodep 56 64,98 11,34 1,51Difference 5 -5,000 2,355 0,315

95% CI for mean difference: (-8.00;- 2.00)

T-Test of mean difference = 0 (vs > 0): T-Value = -15,95 P-Value = 0,000

Portanto aplicando um teste monocaudal (fui em Options e clicei em Greater Than) temos as estatísticas descritivas, o I.C. de 95% para a diferença da média, o teste de hipótese (monocaudal), o valor de T estimado e o p-value relativo a ele. Rejeitamos H0, há queda significativa

Page 28: Verificação da Normalidade

1)Comparar uma média amostral Se dp desconhecido com uma média conhecida, se dp (estimado a partir daconhecido: Teste Z amostra) : Teste t para uma amostra Verificar a normalidade

3)Comparar duas médias amostrais Teste t para amostras pareadas ou correlacionadas pareadas (mesma unidade amostral) - Verificar normalidade da “variável diferença”

2)Comparar duas médias amostrais Teste t para amostras independentes (unidades amostrais independentes distintas) - Verificar normalidade da amostra em cada grupo - Verificar homogeneidade das variâncias (teste F)