Verificação da Normalidade

Verificação da Normalidade

Para verificarmos se um conjunto de dados, uma amostra, possui distrib. NORMAL, realizamos um teste de hipótese que cujas hipóteses são:

H0: A distribuição dos dados (a variável) pode ser consideradacomo tendo distribuição Normal; XH1:A distribuição dos dados (a variável) NÃO pode ser considerada como tendo distribuição Normal.

Vários testes foram desenvolvidos para verificar a hipótese acima, testedo Qui-Quadrado para Normalidade, teste de Kolmogorov-Smirnov, testede Shapiro-Wilkin (indicado quando a amostra for ≤ 20)dentre outros.

Verificaremos a seguir como realizar um testes de normalidade no MINITAB.

Em Basics Statistics vamos em Normality Test...,

Na tela nova selecionamos a var.que desejamos testar (via Select) e optamos por um dos 3 testes disponíveis. Kolmogorov-Smirnov é o mais conhecido, porém realizaremos o teste Shapiro-Wilk,por estar sendo mais requisitado atualmente.

Então seleciono a var. dpeso evou testar se ela possui ou nãodist. Normal. OK

O resultado é um gráficocujos pontos em devem estar bastante próximos da retaem vermelho. MAS acreditemesmo no p-value fornecidopelo teste.Neste caso um p = 0.64 nos leva a não rejeitar H0, logo assumimos que a var. possui distribuição Normal.

Vc irá verificar normalidade de vars. numéricas contínuas ou discretas e vars. categóricas ordinais, jamais de vars. categóricas nominais.

Exemplo em que rejeitamos a norma-lidade da variável,p < 0.05.

INTERVALOS DE CONFIANÇA

Estimativas como média, mediana, desvio padrão,..., são conhecidas co-mo estimativas pontuais, estimativas pontuais, pois através de um único valor desejamos expres-sar as características de nossa variável.

Veremos agora como expressar nossas variáveis através de um conjunto de valores, ou seja, um intervalo com limite inferior e superior que conte-nha nosso parâmetro e no qual se possa depositar um grau de confiança de que o verdadeiro valor (desconhecido) esteja nele contido. Este tipo de estimação é chamada de estimação por intervalos e estes são conhecidos como INTERVALOS DE CONFIANÇA.

Os IC têm sempre a seguinte forma :

Estimativa pontual Valor crítico da distrib.*Erro padrão est. É na escolha do valor crítico da distribuição que definimos o grau de

confiança (1 - ) que iremos associar ao nosso intervalo. Com um = 0.05 temos um intervalo de confiança de 95%, de = 0.01, a confiança é 99%

Calcularemos um IC de 95% (grau de confiança) para a média como exemplo, todos os demais IC’s seguem a mesma lógica, obviamente cada um utilizará o valor crítico da distribuição que for pertinente. utilizará o valor crítico da distribuição que for pertinente.

Desejamos construir um intervalo de confiança de 95% para uma média (Xm).Vimos na aula de testes de hipóteses que se uma população tem distribuição Normal com média µ e dp , então a distr. de Xm em amostras de tamanho N será Normal com média µ e dp = /rqN = Erro padrão

Então, para a dist. de Xm, podem-se estabelecer os valores de z1 e z2 dadistribuição Normal reduzida , tais que a probabilidade de

µ - z1*erro padrão < Xm < µ + z2*erro padrão = 95% , então se (1 - ) = 95% , = 0.05, que na tabela da Normal reduzida equi-vale ao valor 1.96. Substituindo µ e pelas estimativas fornecidas pelos

meus dados tenho a fórmula para o cálculo do meu IC (95%):

Xm - 1.96*s/rqN < Xm < Xm + 1.96*s/rqN ou Xm 1.96*Erro padrão

Exemplo: Em uma amostra de tamanho 10 de neonatos aidéticos o peso médio foi de 700 g. com dp = 100g. Estabeleça um IC (95%) para o peso dos neonatos aidéticos.

700 1.96* 100/rq10 = 700 61.98 = IC (95%) = (638.01 ; 761.98)

Se calculamos um IC de (99%), então = 0.01 corresponde a 2.58 na Normal reduzida temos 700 2.58*100/rq10= 700 81.59 = (618.4 ; 781.5)Observe que o intervalo de 95% tem uma amplitude menor que o de 99%,logo quanto mais confiança desejo na estimativa, maior será o intervalo.

Se ao invés de N = 10 minha amostra fosse de N = 30 o intervalo seria de700 1.96*100/rq30= 700 35.78 = (664.2 ; 735.8)

Observe que o intervalo de N = 30 tem uma amplitude menor que o de N =10, logo quanto maior a minha amostra menor será meu intervalo,

mais preciso.

Interpretação comum do IC (95%): Se coleto apenas uma e somente uma amostra, posso afirmar que tenho 95% de chance que o parâmetro está contido no intervalo estimado. Note que isto não significa que posso, ou devo, afirmar que tenho 95% de chance que o parâmetro de outra amostra esteja contido no intervalo anterior.

São calculados IC para praticamente todos os parâmetros estimados na Estatística: média, variância, mediana, coeficiente de correlação, diferen-ças de médias, proporções, odds ratio, sensibilidade, especificidade, coeficientes de regressão, quartis, diferença de proporções, médias pareadas,... Os IC’s para a diferença entre médias (independentes ou pareadas) são particularmente úteis, pois a sua construção (observação) dispensa até a realização do teste estatístico.

Se o IC das diferenças contém o valor 0, quer dizer que existe uma boa chance de uma média ser equivalente à outra. X - Y = 0 ; X = Y.

Interpretação correta: Se realizar 100 procedimentos iguais a este , no mí-nimo em 95 deles a média obtida estará dentro do intervalo estimado.

Se o IC das diferenças não contém o valor 0, quer dizer que existe uma boa chance de uma média ser diferente da outra. X - Y 0 ; X Y.

Testes estatísticos que envolvem inferências a respeito de uma ou duas médias – Família dos testes “t”

OBJETIVO : Comparar a média de uma amostra com a média conhecida de uma população.

Variável envolvida: 1-A variável da qual será obtida a média amostral que deve ser numérica (contínua ou discreta). Há grande controvérsia quanto às ordinais, teoricamente não, mas no mundo real utiliza-se bastante também as ordinais.

Exemplos:- A média da pressão arterial dos policiais é equivalente à média da população em geral?-O no. de crises epilépticas dos pac.com cisticercose é equivalente ao no.de crises da pop. em geral ?-O nível educacional dos pais de formandos da universidade pública é equivalente ao nível da pop. em geral.

SUPOSIÇÕES:1 A variável precisa ter distribuição normal, é necessário realizar um teste de normalidade antes, c.c, a eficácia do teste é bastante questionável.

2 As observações (xi) são independentes uma das outras.

H0: = µ X H1: µ ou H0: A média amostral é equivalente à média da população X H1: Não é equivalente (Bicaudal)

Tese de hipótese associado

Teste estatístico: Se além da média da população também forconhecido o dp é o teste z para uma amostra (raríssimo).Quando estimamos o dp da nossa amostra será o teste t para uma amostra.

Procedimento: a estatística tem distribuição t com n-1 graus de liberdade.

Então acho o valor da est. e comparo com o valor da distribuição t com n-1 g.l. e nível de significância adotado. Normalmente (99.9%) = 0.05.OU (mais comum) verifico qual a probabilidade do valor da est. numadistr. t com n-1 g.l. e comparo com = 0.05. Se for menor rejeito HO

Exemplo: Foram coletadas amostras de sangue de 18 pacientes com câncer e medida uma substância X, onde obtivemos média = 3.2 e dp = 1.1. Sabe que na população o valor médio desta substância é 2.5. Há diferença desta substância entre os pac. com câncer e a pop. em geral ?

Substituindo na fórmula temos: (3.2 - 2.5)/(1.1/rq18) = 2.69. O valor de 2.69 numa distr. T com 17 g.l. equivale a uma ‘p value’ de 0.0146, menor que 0.05, portanto rejeito H0.

Como meu teste era bicaudal eu concluo que os pac. com câncer têmmédia superior desta substância que a pop. em geral.

Graus de liberdade: Conceito ligado ao número de dados disponíveis(livres) para o cálculo da estatística; número de componentes indepen-dentes menos o número de parâmetros estimados.

Sabe-se que o peso médio das jogadoras russas de voley é de 65 kq. A CBV quer saber se as jogadoras brasileiras possuem peso médio equivalente ou não a das russas, paratanto coletou uma amostra de jogadoras e pesou-as, obtendoos valores ao lado.

Percorrendo o nosso velho caminho ‘Stats’, ‘Basic Statistics’, vamos em ‘1- Sample t’.

Na nova janela colocamos a var. e o valor que queremos com parar (65) com a nossa média.Ok

No output temos: o teste de hipótese explicitado, as estatísticas da var.um intervalo de confiança da média da var., o valor da estatística e probabilidade a ele associado.

Logo se meu p-value < 0.001 eu rejeito H0 (0.001 < 0.05), como a médiadas brasileiras é inferior à das russas, concluo que as brasileiras possuem média significativamente inferior à das russa.

Clicando em ‘Options’, na tela seguinte controlamosse o teste será bicaudal ou monocaudal.

OBJETIVO : Comparar as médias de duas amostras independentes.

Variáveis envolvidas:

Salientando que comparar as médias significa verificar se há ou não diferença entre os valores de cada amostra, realizamos uma extrapolaçãoa partir do resultado.

1-A var. referente aos grupos que serão comparados, que pode ser cat.nominal (Com/Sem), cat. ordinal ou quantitativas contínuas ou não, desde que categorizadas em 2 categorias (Acima de x/Abaixo de x)

2 - A var. que será propriamente comparada, que deve ser numérica(contínua ou discreta). Há grande controvérsia quanto às ordinais, teoricamente não, mas no mundo real utiliza-se bastante também as ordinais.

Amostras independentes: As unidades amostrais, os elementos daamostra, são diferentes em cada amostra, não há relação, não há vínculo entre eles, são unidades amostrais diferentes em cada amostra.

SUPOSIÇÃO :1 A variável que será comparada (2) precisa ter distribuição normal, é necessário realizar um teste de normalidade antes, c.c, a eficácia do teste é bastante questionável. O procedimento correto é testar a normalidade para cada nível da var. categorizada

2 As observações (xi) de cada grupo são independentes uma das outras.

Exemplos:- A média da taxa de iodo entre os sexos é equivalente.-A renda média das famílias com filhos é semelhante à renda média das famílias sem filhos.- O valor de ansiedade (IDATE) de pessoas com mais de 1,70 de alturaé equivalente ao valor das pessoas com menos de 1,70

Graficamente

Tese de hipótese associado

H0: Média da amostra 1 = Média da amostra 2; X H1: Média da amostra Média da amostra 2 (Bicaudal)

Teste estatístico: Verificada e não rejeitada a hipótese denormalidade é o teste t para amostras independentes.

Procedimento: a estatística onde

tem distribuição t (n1+ n2 - 2) graus de liberdade.

Observe que temos duas médias e dois desvios padrões estimados (um de cada amostra), se os 2 desvios padrões não forem equivalentes,há umamodificação na fórmula (não apresentaremos) e no número de graus de liberdade. Portanto é necessário testar se os dps são ou não equivalentes. Teste da homogeneidade das variâncias.

Então acho o valor da est. e comparo com o valor da distribuição t com (n1+n2 -2) g.l. e nível de significância adotado. Normalmente = 0.05.OU (mais comum) verifico qual a probabilidade do valor da est. numadistr. t com (n1+n2-2) g.l. e comparo com = 0.05. Se for menor rejeito HO

Exemplo: Duas amostras de 8 pgs foram coletadas. Uma das amostras ingeriu uma caneca de café com uma concentração x de cafeína e a ou-tra ingeriu uma caneca sem cafeína. Após ambos os grupos foramassistir a aula de estatística e contou-se o no. de bocejos de cada aluno. Será que a cafeína influi no grau de atenção ?

Calculo as médias e dps de cada grupo:

Calculo a parte inferior da fórmula desvio padrão conjugado

Calculo a fórmula toda

Então meu teste forneceu o valor de 2.81. O valor de = 0.05 numa dist.t com 14 g.l. é 2,15, como 2.81 > 2.15 Rejeito HO . De outro modo, o valor 2,81 corresponde a uma p-value de 0.015, logo 0.015 < 0.05 Rej.H0

Uma pesquisa do CRM quer verificarse os oftalmologistas recebem mais porhora de plantão que os ortopedistas. Temos uma coluna com a var. real_hora(contínua) e uma com a variávelMed, onde 1 = Ort. e 2 = Oft. Vamos em ‘Stat’, ‘Basic Stat..,e em2-Sample t. Lembre-se que seria necessário antes testar a normalidade

Aviso que as amostras estão em uma coluna; Coloco a var. real_hem’Samples’ e os grupos em‘Subs-cripts’.

Observe que ao não marcar o campo ‘Assume equal variances’ estou assumindo que as variâncias NÃO são equivalentes. E OK

Two-sample T for real_horamed N Mean StDev 1 125 32,1 15,3 2 65 34,8 24,9 Difference = mu (1) - mu (2)Estimate for difference: -2,77T-Test of difference = 0 (vs not =): T-Value = -0,82P-Value = 0,414 DF = 89

Temos o tamanho de cada grupocom suas médias e dps, umaestimativa da diferença, o teste de hipótese,o valor do teste, o valor de p-value e o no. de graus de liberdade.

Repare que o no. de g.l. = 89 é diferente de (n1+ n2 - 2) pois assumi que as variâncias não eram equivalentes, mas como sei isto? Testando.

Vamos... em ‘2 Variances’ e na tela resultante preenchemos Samples e Subscri- pts como anteriormene e OK

Temos um I.C, as estimativas do dp,o Teste F e o de Levene que comparam se dois desvios padrões são ou não equivalentes. O p-value < 0.001 indica que rejeitamos a hipótese H0 de igualdade entre as variância.

Portanto quando rejeito a hipótese de igualdade dos dps.eu não assinaloo quadrado de “Assume equal variances”; se não rejeito a igualdade dasvariâncias eu assinalo o quadrado.

Se clicarmos botão ‘Options’ da tela doteste t para 2 amostras teremos a tela aolado, onde podemos controlar se deseja mos um teste bicaudal (not equal) ou monocaudal (less than ou greater than)

Portanto antes de realizar o teste t para amostras independentes énecessário testar a normalidade e se as variâncias são homogêneas.

OBJETIVO: Comparar as médias de duas amostras pareadas, correlacionadas, ou seja, não independentes.

Amostras pareadas são aquelas em as medidas são realizadas namesma unidade amostral, o sujeito é controle dele mesmo. A situação mais comum ocorre quando realizamos uma medida antes de algum procedimento, evento, e depois realizamos a mesma medida após o procedimento, evento, na mesma amostra. Entretanto há outras situações, como duas medidas comparáveis em uma unidade amostral, p. ex., comparar o lado direito contra o esquerdo na mesma unidade amostral, ou comparar duas técnicas realizadas na mesma unidade amostral. Variáveis envolvidas:1 - A var. que será propriamente comparada, que deve ser numérica (contínua ou discreta). Há grande controvérsia quanto às ordinais, teoricamente não, mas no mundo real utiliza-se bastante também as ordinais.Tenha atenção, pois na planilha os valores referentes à 1a. medida devemestar numa coluna e os valores referentes à 2a. medida em outra coluna, e, obviamente, as medidas do mesmo unidade amostral na mesma linha.

Motivos para usarmos este teste e não o teste t para amostras independentes: 1 - O fato da mesma unidade amostral ser utilizada duas vezes introduz uma correlação, a medida do “depois” pode depender, até certo ponto, da medida do “antes”. Exemplo das dietas.

2 - Este teste é mais poderoso que o teste para amostras independentes, uma das maiores fontes de variabilidade é a variabilidade entre os sujeitos, repetindo as medidas nos mesmos sujeitos a variabilidade entre sujeitos é menor (o sujeito é controle dele mesmo), e portanto uma real di-ferença entre as medidas é mais fácil de ser detectada. Amostras menores.

Teste de hipótese associado

H0: A diferença entre as médias = 0; X H1: A diferença entre asmédias 0 Observe que este teste é semelhante ao teste t para uma amostra, teremos uma nova “variável” que é a diferença = Antes - Depois,e testaremos se a sua média difere ou não significativamente de 0 Teste estatístico: Teste t para amostras pareadas ou correlacionadas.

Procedimento: Exemplificando para facilitar: Temos duas medidas realizadas nos mesmos sujeitos Suj Antes Depois Antes - Depois O passo inicial é computarmos as 1 420 380 40 diferenças e calcularmos a média

2 235 230 5 das diferenças. Repare que a média 3 280 300 -20 das diferenças é igual a diferença 4 360 260 100 das médias. Depois calculo o des 5 305 295 10 vio padrão da diferença = 34.4 6 215 190 25

7 200 200 00 De posse da média e do dp da di- 8 460 410 50 ferença vou realizar um teste t pa- 9 345 330 15 ra uma amostra, comparando a mé 10 375 380 -5 dia da diferença amostral com a mé- Média 319.5 297.5 22 dia conhecida 0

Portanto utilizamos a estatística do teste t para uma amostra: (Média - )/(s/rqn), onde sempre substituiremos por zero, e já sabemos que esta estatística tem uma distribuição t com número de pares -1 graus de liberdade. A conclusão do teste é sempre a mesma:

Se o t estimado for maior que o t tabelado Rejeito H0, ou se o ‘p-value’ for menor que o nível de significância adotado (0.05) Rejeito H0.

Terminando o exemplo temos (22 - 0)/(34.4/rq10) = 22/10.9 = 2.02Este valor corresponde a uma probabilidade na tabela t com 9 g.l. (no.depares -1) igual a 0.074. Rejeito ou não H0, qual a conclusão?

SUPOSIÇÃO :1 A variável ‘DIFERENÇA’ precisa ter distribuição normal, é necessário realizar um teste de normalidade antes, c.c, a eficácia do teste é bastante questionável. Portanto teste a normalidade davariável Diferença e não a normalidade das variáveis originais.

2 As diferenças (di) são independentes uma das outras.

Um grupo de 56 crianças obesas foisubmetido a uma dieta, teste se 3 meses após houve redução significativa do peso. Stats, Basic Statistics, e vamos em‘Paired t’.

Na nova tela coloco o peso antesem ‘First sample’ e o peso depoisem ‘Second sample’

Qual tipo de teste posso realizarnesta situação, mono ou bicaudal ?

Paired T-Test and CI: pesoant; pesodepPaired T for pesoant - pesodep N Mean StDev SE Meanpesoant 56 69,98 9,58 1,28pesodep 56 64,98 11,34 1,51Difference 5 -5,000 2,355 0,315

95% CI for mean difference: (-8.00;- 2.00)

T-Test of mean difference = 0 (vs > 0): T-Value = -15,95 P-Value = 0,000

Portanto aplicando um teste monocaudal (fui em Options e clicei em Greater Than) temos as estatísticas descritivas, o I.C. de 95% para a diferença da média, o teste de hipótese (monocaudal), o valor de T estimado e o p-value relativo a ele. Rejeitamos H0, há queda significativa

1)Comparar uma média amostral Se dp desconhecido com uma média conhecida, se dp (estimado a partir daconhecido: Teste Z amostra) : Teste t para uma amostra Verificar a normalidade

3)Comparar duas médias amostrais Teste t para amostras pareadas ou correlacionadas pareadas (mesma unidade amostral) - Verificar normalidade da “variável diferença”

2)Comparar duas médias amostrais Teste t para amostras independentes (unidades amostrais independentes distintas) - Verificar normalidade da amostra em cada grupo - Verificar homogeneidade das variâncias (teste F)

Verificação da Normalidade

Documents

Transcript of Verificação da Normalidade