amostras bivariadas

6
Caracterização de amostras bivariadas Neste caso os dados são constituídos por pares ordenados. O primeiro elemento mede um atributo de um objecto em análise e o outro mede outro atributo do mesmo objecto. Interessa verificar se existe uma relação de associação entre eles e, caso exista caracterizar essa relação. Dados Quantitativos Lote Volume de produção (Unidades) Custo de produção (Contos) 1 1500 3100 2 800 1900 3 2600 4200 4 1000 2300 5 600 1200 6 2800 4900 7 1200 2800 8 900 2100 9 400 1400 10 1300 2400 11 1200 2400 12 2000 3800 Considerando que existe uma relação linear entre as variáveis, vamos ver o procedimento adoptado no ajuste de uma relação linear, recorrendo ao método dos mínimos quadrados. Considere-se o modelo linear Y = á + bx. (1) E construa-se os desvios e n = y n – (á + bx n ) (2) Para evitar cancelamento de desvios, construa-se a soma dos erros quadráticos SEQ = 0 ) . ( 2 1 1 2 = - - = = = n N n n N n n x b á y e (3)

description

a

Transcript of amostras bivariadas

Caracterização de amostras bivariadas

Neste caso os dados são constituídos por pares ordenados. O primeiro elemento mede um atributo de um objecto em análise e o outro mede outro atributo do mesmo objecto. Interessa verificar se existe uma relação de associação entre eles e, caso exista caracterizar essa relação. Dados Quantitativos

Lote Volume de produção (Unidades)

Custo de produção (Contos)

1 1500 3100 2 800 1900 3 2600 4200 4 1000 2300 5 600 1200 6 2800 4900 7 1200 2800 8 900 2100 9 400 1400 10 1300 2400 11 1200 2400 12 2000 3800

Considerando que existe uma relação linear entre as variáveis, vamos ver o procedimento adoptado no ajuste de uma relação linear, recorrendo ao método dos mínimos quadrados. Considere-se o modelo linear Y = á + bx. (1) E construa-se os desvios

en = yn – (á + bxn) (2)

Para evitar cancelamento de desvios, construa-se a soma dos erros quadráticos

SEQ = 0).( 2

11

2 =−−=∑∑==

n

N

nn

N

nn xbáye (3)

SEQ = SEQ(á,b)

Vamos minimizar SEQ já que seguimos o método dos mínimos quadrados.

á

báSEQ

∂∂ ),( =(-2). 0).(

1

=−−∑=

n

N

nn xbáy (4)

e

b

báSEQ

∂∂ ),( =(-2). 0).(

1

=−−∑=

n

N

nnn xbáyx (5)

cuja solução é

á = xbyxN

byN

n

n

n

n −=− ∑∑11

11 (6)

b= xx

xy

s

s (7)

onde

SXY = )).((1

yyxx n

N

nn −−∑

=

(8)

e

SXX = .)( 2

1

xxN

nn −∑

=

(9)

Para o exemplo em causa os valores encontrados são:

á = 731,6 e b = 1,455 Calculando o valor de y que corresponde a x quando (6) e (7) se verificam obtêm-se

y = á + bx = y - b. x + b. x = y (10)

Considerando (7) e, sabendo que SXX é sempre positiva desde que os valores de x não sejam todos iguais, o sinal de b depende de SXY.

No exemplo este valor é positivo uma vez que a maior parte das parcelas de (8) são positivas (produtos cruzados).

Para o exemplo x = 1358 unidades e y = 2708 contos.

SXY = 9,094.106 .

Define-se Produto Cruzado Médio por

N

1 )).((1

yyxx n

N

nn −−∑

=

(11)

que é uma medida adequada para descrever o grau de relacionamento linear dos dados de uma amostra bivariada. No entanto, se se pretender fazer uma inferência sobre a população este deve ser substituído pela Covariância Amostral dada por

CXY = 1

1−N

)).((1

yyxx n

N

nn −−∑

=

(12)

Para os dados tem-se CXY = 9,094.106/(12-1) = 0,827.106 rolamentos.contos.

Esta estatística tem a desvantagem de depender das unidades nas quais os dados são expressos. Para adimensionalizar define-se o coeficiente de correlação amostral RXY dado pela seguinte expressão

RXY = 2

N

1nn

2N

1nn

n

N

1nn

) y-(y 1-N

1.) x-(x

1-N

1

)).(y x-(x 1-N

1

∑∑

==

=

−=

y

SS

C

YX

XY = YYXX

XY

SS

S (13)

Para o exemplo RXY = 0,981.

Nas situações em que o ajuste não é perfeito ou não existe qualquer relacionamento linear entre as duas variáveis (casos em que |RXY|=1 ou RXY=0) é difícil atribuir um significado directo ao valor do coeficiente de correlação amostral. No entanto, há um significado para o quadrado do seu valor. Para se chegar a essa interpretação desenvolve-se o somatório SYY da seguinte forma,

SYY = 2N

1nn ) y-(y∑

=

= 2

1

^^

)()(∑

−+−N

nnn yyyy (14)

O desenvolvimento do somatório SYY conduz a

SYY = 2N

1nn ) y-(y∑

=

= ∑

−N

nn yy1

2^

)( + 2

1

^

)(∑

−N

n yy +2. ∑

−−N

nnn yyyy1

^^

))(( (15)

A primeira parcela representa a soma dos erros quadráticos:

−N

nn yy1

2^

)( = ∑∑ =−−N

nn

N

n ebxáy1

22

1

)( (16)

Tendo em conta que a recta dos mínimos quadrados passa pelo ponto (x ,y ) ,

ny^

- y = b (xn - x ) (17)

a segunda parcela pode ser reescrita da seguinte forma

∑N

1

( ny^

- y )2 = b2. 2N

1nn ) x-(x∑

=

(18)

A terceira parcela é nula. O somatório SYY,que reflecte a variação dos dados yn em torno da sua média amostral, pode ser expresso como a soma de duas parcelas,

2N

1nn ) y-(y∑

== ∑

N

ne1

2 + b2. 2N

1nn ) x-(x∑

=

(19)

A segunda parcela representa a parte da variação dos dados yn que é explicada pela relação linear; A primeira representa a parte não explicada.

Se se calcular a proporção da variação dos dados yn que é explicada pela relação linear, obtém-se

22

22

1

2

1

2 .

)y(

)x(.

XYYYXX

XY

YY

XXXX

XY

N

n

N

n

RSS

S

S

SS

S

y

xb==

=−

∑ (20)

Assim, de (20) tem-se que o quadrado do coeficiente de correlação amostral representa a proporção da variação dos dados yn que é explicada pela relação linear, a partir da variação dos dados xn. O valor de

2XYR designa-se por coeficiente de determinação.

No caso de se pretender inferência relativa à população, a partir de uma amostra limitada, o coeficiente de determinação, que pode ser reescrito da forma seguinte

2XYR =

YY

N

n

YY

N

nYY

YY

XX

S

e

S

eS

S

Sb2

1

2

12 )(

1)( ∑∑

−=−

= (21)

deve ser substituído pelo coeficiente de determinação corrigido dado por

2XYR (corrigido) =

)1/(

)2/()(

1

2

1

−∑

NS

Ne

YY

N

n

(22)

Para os dados do exemplo R2 = 0,9812 = 0,963 = 96,3% e R2(corr.) = 0,959 = 95,9%.