1
Outros tópicos na análise de regressão
Regressão passando pela origemExemplo: X são as unidades produzidas e Y é o custo, assim Y é zero por definição quando X=0. Outro exemplo: X é o número de marcas de cervejas armazenada em um supermercado num experimento (incluindo alguns supermercados sem cerveja armazenada (?? Não é no Brasil) e Y é o volume de cervejas vendidas no supermercado.
Modelo
O modelo com erros normais é o mesmo que (3) exceto que 0=0, assim, temos:
(5) XY iii 1
Onde: 1 é o parâmetro a estimar; Xi são constantes conhecidas e i são os erros aleatórios, independentes, normalmente distribuídos com média zero e variância 2.
A função de regressão para o modelo (5) é dada por:
XYE 1)(
2
Inferência
O estimador de mínimos quadrados de 1 (que também é o estimador de máxima verossimilhança para o modelo de regressão com erros normais), no modelo (5), é obtido minimizando-se o critério:
21 )( ii XYQ
com relação ao parâmetro 1. A equação normal resultante é dada por:
0)( 1 iii XbYX
É um valor específico
Resolvendo para b1 obtemos o estimador por ponto:
21
i
ii
X
YXb
Os valores ajustados e os resíduos são dados por:
iiiiiii XbYYYe e XbY 11ˆˆ
3
Um estimador não tendencioso para 2 é dado por:
11
)ˆ( 22
n
e
n
YY iiiQME
Perde-se 1 grau de liberdade para estimar o parâmetro 1
Os limites de confiança para 1, E(Yh) e para uma nova observação Yh(novo) para o modelo (5) são dados por:
)(ˆ1)(
)ˆ(ˆ)ˆ()(
)()(
2
2
2
2
2
)(
111
predtsY QMEpredição sY
YtsY Y sYE
btsb b s
hX
X2novah
hhX
QMEXh
2h
1X
QME2
i
h
i
h
i
O valor de t tem n-1 graus de liberdade associado (os do resíduo). No modelo (3), com intercepto, tínhamos termos da forma: No modelo (5), como a equação passa pela origem, temos termos X2
i e X2h.
.)( 2 2hi )X-(X ou XX
4
Exemplo: uma companhia opera 12 depósitos (armazéns). Com o objetivo de encontrar um procedimento mais eficiente de planejamento e controle, foi estudado a relação entre o número de horas trabalhadas (X) e o custo total do serviço (Y) nos depósitos durante um período de teste. Os dados e alguns resultados são apresentados na tabela a seguir:
Regressão passando pela origem - exemplo dos depósitos(Warehousing)
Depósito Unidadestrabalhadas
Custo total
i Xi Yi XiYi X2i
1 20 114 2280 4002 196 921 180516 384163 115 560 64400 132254 50 245 12250 25005 122 575 70150 148846 100 475 47500 100007 33 138 4554 10898 154 727 111958 237169 80 375 30000 640010 147 670 98490 2160911 182 828 150696 3312412 160 762 121920 25600
Total 1359 6390 894714 190963
5
y=4,616*x+eps
Unidades trabalhadas
Cu
sto
to
tal
0
200
400
600
800
1000
0 40 80 120 160 200 240
O parâmetro 1 é estimado por:
6853,41 b
Assim, a função de regressão estimada é dada por:
XY 6853,4ˆ
?ie
6
O intervalo para 1, com confiança de 95% é dado por:
76,461,4
)0342,0(201,26853,4
1
Interpretação: com 95% de confiança, estima-se que a média da variável custo aumenta alguma coisa entre $4,61 e $4,76 para cada unidade adicional de trabalho.Cuidados com o uso da regressão pela origem
• geralmente, a soma dos resíduos não é igual a zero (Verifique este fato no exemplo em estudo; também na equação normal(restrição)). Assim, num gráfico de resíduos, os mesmos não estarão aleatoriamente distribuídos ao redor de zero;
• pode ocorrer que: 22 )( YYSQTOeSQE ii
(ocorrência: dados apresentam comportamento curvilíneo ou linear com intercepto).
Neste caso, o coeficiente de determinação (r2), dado por:
(negativo) r SQTOSQE 012
Portanto, o r2, neste caso de regressão, não tem uma clara interpretação.
7
Exercício: construa a tabela da análise de variância da regressão, faça o teste F e conclua, utilizando as seguintes somas de quadrados.
21
221
2
2
)(
ˆ
ii
ii
i
XbYSQE
XbYSQRNC
YSQTNC
Onde SQTNC é a soma de quadrados total não corrigido; SQRNC é a soma de quadrados da regressão não corrigido e SQE é a soma de quadrados do erro.
Verifique numericamente que SQTNC=SQRNC+SQE.
8
9
Exemplo (referência: SAS System for Regression). Neste exemplo iremos ilustrar o fato de que o uso de um modelo sem intercepto pode fornecer resultados imprecisos mesmo nos casos em que o verdadeiro valor do coeficiente linear é próximo de zero. Uma amostra de tamanho 8 foi gerada usando o modelo y=x+, com o termo do erro com distribuição normal, média zero e variância l.
Observação X Y1 1 -0.352 2 2.793 3 1.814 4 2.005 5 3.886 6 6.797 7 7.678 8 6.79
10
Modelo com coef. Linear Modelo sem coef. linearF= 34,23 Valor p=0,0011 F=117,34 Valor p=0,0001
R2=0,8509 R2=0,9437QME=1,446 QME=1,458
5861,ei 96300 ,
0911 , 91601 ,SQE=8,68 SQE=10,21SQT=58,19 SQT=181,27
Observa-se imediatamente que tanto o valor o teste F para o modelo, como o valor R2 são muito maiores para o modelo sem o coeficiente linear. Observe (isto é importante) que os quadrados médios são praticamente iguais, a rigor, o quadrado médio do modelo sem o coeficiente linear é maior do que o modelo com o coeficiente angular. Na realidade, os dois modelos estimam equações de regressão muito similares; a estimativa do coeficiente linear (-0,963) é bastante próxima de zero, além disso, a hipótese de que 0=0 não pode ser rejeitada (valor p=0,3436); as estimativas dos coeficientes angulares: 1=1,09 e 1=0,916, para os modelos com e sem coeficiente linear, respectivamente, são muito próximos.
11
Observe, também, que a soma dos resíduos vale -1,5865, diferente de zero, mesmo o coeficiente linear sendo próximo de zero.
Como o verdadeiro coeficiente linear é zero, as somas de quadrados do erro são próximas, quais sejam: 8,68 para o modelo com intercepto e 10,21 para o modelo sem o intercepto, porém, as somas de quadrado total são muito diferentes, sendo igual a 181,27 para o modelo sem o coeficiente linear e 58,19 para o modelo com coeficiente linear. Como o r2 é uma estatística baseada na diferença entre a soma de quadrados do erro e total, ela é muito maior para o modelo sem o coeficiente linear.
Observação Resíduos1 -1,26572 0,95853 -0,93724 -1,66295 -0,69876 1,29567 1,25998 -0,5359
12
Efeitos de erros de medidas
Erros de medida em Y
Exemplo:
Y: tempo necessário para completar uma tarefa
X: complexidade da tarefa
As tomadas de tempo podem ser feitas de forma imprecisa. Porém, se esses erros podem ser considerados aleatórios, não correlacionados e não tendenciosos, não temos problemas com a modelagem adotada até aqui. A parte aleatória do modelo () absorve estas variações.
Erros de medida em X
Suponha que estejamos interessados na seguinte relação:
ganhos por tarefa dos trabalhadores e idades dos mesmos.
Sejam:
Xi = a idade verdadeira do i-ésimo trabalhador
Xi* = a idade relatada pelo i-ésimo trabalhador
13
Define-se o erro de medida como sendo:
iii XX *
O modelo de regressão que gostaríamos estudar é:
iii XY 10
Como observamos Xi*, o modelo fica:
(6) XY
ou
XY
iiii
iiii
)(
)(
1*
10
*10
Termo do erro
Variável preditora
Para que os resultados padrões da análise de regressão sejam válidas, a variável preditora deve ser independente do erro. Aqui, a variável preditora é correlacionada com o erro, dada a restrição:
iiiiii XXXX **
Portanto, os resultados padrões de regressão não são válidos para o modelo (6).
14
Demonstração: covariância entre Xi* e os erros (i- 1i) no modelo (6)
)(
)]}())][(({[),(
21
1
1
11**
1*
iii
iii
iii*i
iiiiiiiii
E
)](E[
)])(X-E[(X
EXEXEX
Inicialmente, temos:.constantes X e 0)E( pois XXEXE iiiiii ,)()( *
(condição) EEEE a iiiiiiii 0)()]()([)(),()(
)()]([)()()( 2222iiii EEE b
A covariância fica:
Usando (a) e (b), a covariância fica:
0)(),( 211
* iiiiX
Grandes dificuldades são encontradas na obtenção de estimadores não tendenciosos quando existe erros de medida em X. Para soluções consultar textos especializados .
(Erros de medidas, i não sejam correlacionados com os erros do modelo, i.)
15
Predição inversa (Calibração)
Em muitos estudos, uma regressão de Y sobre X é usada para estimar o valor de X o qual originou um novo valor de Y.
Exemplos:
1) um analista de uma associação de comércio fez uma regressão entre preços de venda de um produto (Y), e os seus custos (X) para 15 membros da associação. O preço de venda de uma firma não pertencente à associação, Yh(novo), é conhecido e, deseja-se, conhecer o custo, Xh(novo), para esta firma.
2) foi realizada uma análise de regressão da diminuição do nível de colesterol (Y) e a dosagem de uma nova droga (X), para 50 pacientes. Um pesquisador está tratando um novo paciente para o qual o nível de colesterol deveria diminuir uma quantidade Yh(novo). Deseja-se estimar a dose necessária, Xh(novo),a ser administrada para se conseguir a quantidade Yh(novo).
Vamos assumir o modelo (3):iii XY 10
16
A função de regressão estimada é dada por:
(7) XbbY 10ˆ
Temos uma nova observação, Yh(novo) e desejamos estimar o nível Xh(novo) que origina esta nova observação. Resolvendo (7) para X, dado Yh(novo, temos o estimador:
0ˆ1
0)(
)( 1b
bY
novoh b X novoh
Estimador pontual para o novo valor Xh(novo).
(Estimador de máxima verossimilhança)
Exemplo: um médico está estudando um novo método (mais rápido) para medir baixas concentrações de açúcar no sangue. Doze (n=12) amostras foram usadas com concentrações conhecidas (X: método exato), divididas em 3 amostras para cada um de 4 diferentes níveis. A concentração de açúcar medida pelo método rápido (Y) foi então observada para cada uma das amostras.
A equação de regressão estimada é dada por: XY 017,1100,0ˆ
Veja figura na próxima página.
17
•••
•••
•••
•••
XbbY 10ˆ
Yh(novo)
)(ˆ
novohXX
Y
Figura: exemplo de calibração.
Outros resultados:
5,500X )X-(X 0,0272QME bs i 1350142,0)(2
1
Verificar se existe uma relação linear entre X e Y.
0,000171,6)|tP(| t 6,71*
Portanto, rejeitamos H0:1=0.
18
O pesquisador deseja estimar a concentração real Xh(novo) para um novo paciente para o qual o método rápido (novo) resultou numa concentração de Yh(novo)=6,52.
509,6ˆ017,1
)1,0(52,6)(
novohX
Intervalo de confiança aproximado para Xh(novo)
O intervalo de confiança é dado por:
2
2)(
21 )(
)ˆ(1
)(
1)ˆ(
)ˆ()2;2/1(ˆ
XX
XX
nb
QME
novoh
i
novohXs
XsntX
Para o exemplo, temos:
89,613,6 )( novohX
Concluímos com 95% de confiança que a verdadeira concentração de açúcar para o paciente está entre 6,13 e 6,89. Portanto, o erro é de aproximadamente 6%, o qual é considerado razoável para o pesquisador.
19
Comentário: em problemas de calibração geralmente temos medidas (Y), rápidas, mais baratas e aproximadas, relacionadas com medidas (X), precisas, caras e demoradas sobre n observações. O modelo de regressão resultante é, então, utilizado para estimar uma medida precisa, Xh(novo), para uma medida aproximada nova Yh(novo).
Escolha dos níveis de X
Questões que o pesquisador deve considerar:
• Quantos níveis de X deveriam ser pesquisados?
• Quais devem ser os dois níveis extremos?
• Qual deve ser o espaçamento entre os níveis?
• Quantas observações devem ser feitas para cada nível de X?
20
Objetivos de uma análise de regressão:
• estimar o coeficiente angular de uma regressão linear ;
• estimar o coeficiente linear da regressão linear;
• fazer predições de novas observações;
• estimar uma ou mais respostas médias;
• para regressão curvilínea, localizar a resposta máxima ou mínima;
• determinar a natureza da função de regressão.
Não existe uma resposta única para todas as questões formuladas, pois existem diferentes objetivos numa análise de regressão os quais levam a diferentes respostas.
Para ilustrar como os objetivos afetam o delineamento (projeto), considere as variâncias:
21
]1[)(
][)ˆ(ˆ
)(
][)(
2
2
2
2
2
2
2
2
)(
)(122)(
)(
)(122
)(12
1
)(12
02
0
XX
XXnnovoh
XX
XXnhh
XX
XXX
n
i
h
i
h
i
i
preditoY
YY
(8) bb
bb
Se o propósito da análise de regressão é estimar o coeficiente angular, 1, a variância de b1 é minimizada se o denominador de (8) for maximizado. Isto é conseguido usando 2 níveis de X, nos dois extremos da região de estudo, e colocando metade das observações em cada dos dois níveis. Devemos estar certos da linearidade da regressão, caso contrário, com 2 níveis não temos informação sobre desvios da linearidade.
Se o objetivo é estimar o intercepto, 0, o número e a distribuição dos níveis não afetam a variância de b0, contando que a média (X barra) seja 0 (zero).
22
Para estimar a resposta média ou predizer uma nova observação no nível Xh, a variância é minimizada usando níveis de X de tal forma que:
hXX Sugestões (D.R.Cox):
• Num experimento exploratório, em que o objetivo é verificar se uma variável preditora, tem ou não um efeito significativo e qual a direção, use apenas dois níveis.
• Se acharmos que a resposta apresenta a forma de parábola, devemos usar três (3) níveis. Este é o caso mais corriqueiro.
• Se o objetivo é estudar a forma da curva de resposta, então, devemos usar quatro (4) níveis.
• Usar mais do que quatro (4) níveis para: a) quando é necessário estimar detalhes da curva de resposta; b) quando a curva de resposta apresenta uma assíntota; c) quando a curva de resposta não é adequadamente descrita pelo coeficiente angular e de curvatura.
• Com exceção do último caso, geralmente é satisfatório usar-se níveis igualmente espaçados e com o mesmo número de repetições por nível.Nota: fazer lista de exercícios número 4.
Top Related