Apresentação do PowerPoint - energiapura.net.br · Regressão Linear Incertezas na determinação...
Transcript of Apresentação do PowerPoint - energiapura.net.br · Regressão Linear Incertezas na determinação...
Regressão Linear
Disciplina: Planejamento e Análise de Experimentos PAE – PPGEB
Professores
Miguel Antonio Sovierzoski, [email protected];
Vicente Machado Neto, [email protected];
Regressão Linear
A regressão linear é usada para estabelecer ou confirmar a relação entre
duas variáveis.
Na química analítica normalmente é utilizada para expressar a relação
entre a resposta analítica e por exemplo a concentração de um analito.
A equação geral que descreve a curva ajustada pode ser escrita como:
𝑦 = 𝑎 + 𝑏𝑥Onde 𝑏 é a inclinação da reta e 𝑎 é onde a reta intercepta o eixo y.
O método dos mínimos quadrados para regressão linear é usado para
achar-se os valores de 𝑎 e 𝑏. O melhor ajuste é obtido pela reta que
minimiza a soma quadrática das diferenças entre os valores obtidos para
y e a reta ajustada, os chamados resíduos.
Regressão Linear
As diferenças observadas entre os valores de y e os valores da reta ො𝑦 ,
são conhecidos como resíduos. A forma mais comum de regressão é de
y dado x, onde assume-se que os valores de x são conhecidos
exatamente e o único erro ocorre na medida de y.
Pressuposto da Regressão Linear:
- Os erros em x podem ser desconsiderados;
- Para o cálculo dos intervalos de confiança os erros associados com
os valores de y devem ser normalmente distribuídos. A média de 3 ou
mais valores já garante a normalidade;
- A variância dos erros de y devem ser constantes ao longo da faixa de
interesse;
- Os valores de x e y devem ser contínuos.
A inspeção visual dos dados e resíduos são os meios mais eficientes
para verificar as suposições acima.
Regressão Linear
Antes de efetuar a regressão linear é uma boa prática examinar os
dados tentando identificar possíveis outliers.
Exame visual dos dados
Altas médias
causadas por
uma desigual
distribuição
dos pontos.
Regressão Linear
Antes de efetuar a regressão linear é uma boa prática examinar os
dados tentando identificar possíveis outliers.
Exame visual dos dados
Outlier alterando a
inclinação da reta
ajustada.
Regressão Linear
Antes de efetuar a regressão linear é uma boa prática examinar os
dados tentando identificar possíveis outliers.
Exame visual dos dados
Outlier alterando a
intersecção do
eixo y pela reta
ajustada.
Regressão Linear
Para cálculo de 𝑏 e 𝑎 as seguintes equações são utilizadas:
𝑏 =σ𝑖=1𝑛 𝑥𝑖 − ҧ𝑥 𝑦𝑖 − ത𝑦
σ𝑖=1𝑛 𝑥𝑖 − ҧ𝑥 2
𝑎 = ത𝑦 − 𝑏 ҧ𝑥ҧ𝑥 𝑒 ത𝑦 são as médias de x e y.
Uma vez que a e b tenham sidos calculados podemos calcular os
resíduos e o desvio padrão dos resíduos.
𝑦𝑖 = é um valor medido (proveniente dos meus dados);
ෝ𝑦𝑖 = é um valor obtido pela reta ajustada;
𝑦𝑖 − ෝ𝑦𝑖 = é um resíduo;
𝑛 = número de pares medidos (dados).
𝑠 Τ𝑦 𝑥 =σ𝑖=1𝑛 𝑦𝑖 − ෝ𝑦𝑖
2
𝑛 − 2
𝑛 − 2 = é o número de graus de liberdade do desvio padrão dos
resíduos.
Cálculo da inclinação e intersecção
Regressão Linear
O desvio padrão da inclinação 𝑠𝑏 é calculado usando-se a equação:
𝑠𝑏 =𝑠 Τ𝑦 𝑥
σ𝑖=1𝑛 𝑥𝑖 − ҧ𝑥 2
O desvio padrão da intersecção estimada 𝑠𝑎 usando-se a equação:
𝑠𝑎 = 𝑠 Τ𝑦 𝑥
σ𝑖=1𝑛 𝑥𝑖
2
𝑛σ𝑖=1𝑛 𝑥𝑖 − ҧ𝑥 2
Os intervalos de confiança para as estimativas da inclinação e
intersecção da reta são:
𝑏 ± 𝑡. 𝑠𝑏𝑎 ± 𝑡. 𝑠𝑎
𝑡 = 𝑣𝑎𝑙𝑜𝑟 𝑡 𝑠𝑡𝑢𝑑𝑒𝑛𝑡 𝑏𝑖𝑐𝑎𝑢𝑑𝑎𝑙 𝑝𝑎𝑟𝑎 ∝= 0,05 𝑒 𝜈 = 𝑛 − 2.
Cálculo da inclinação e intersecção
Regressão Linear
A plotagem dos resíduos pode identificar problemas da curva ajustada
incorretamente ou sem qualidade. Caso haja um bom ajuste entre os
dados e a curva os resíduos devem ser distribuídos aleatoriamente em
relação ao zero.
Inspeção dos resíduos
Distribuição ideal dos
resíduos. Os resíduos estão
distribuídos aleatoriamente
em torno do zero e não há
uma tendência definida de
variação do desvio padrão
com a concentração.
Regressão Linear
Mostra os resíduos do ajuste
quando os dados não seguem
uma reta, mas uma reta foi
ajustada. Provavelmente o
melhor modelo de ajuste não
seja linear.
Inspeção dos resíduos
Mostra uma tendência de
aumento do desvio padrão
de y com a concentração.
Regressão Linear
Mostra evidências de uma
aproximação dos resíduos,
em relação ao zero, a cada
valor de x, isto pode indicar
uma correlação entre os
resíduos. Pode-se aplicar
ANOVA para verificar este
efeito.
Inspeção dos resíduos
Mostra um padrão de
resíduos quando a reta foi
incorretamente forçada a
passar por zero
Regressão LinearCoeficiente de correlação r
O coeficiente de correlação é determinado pela equação:
𝑟 =σ𝑖=1𝑛 𝑥𝑖 − ҧ𝑥 𝑦𝑖 − ത𝑦
σ𝑖=1𝑛 𝑥𝑖 − ҧ𝑥 2 σ𝑖=1
𝑛 𝑦𝑖 − ത𝑦 2
O coeficiente de correlação mede o grau de associação linear entre
as variáveis x e y. O valor de r está na faixa de ± 1.
O coeficiente de correlação não pode ser tomado como uma
medida de linearidade.
O coeficiente r só pode ser interpretado como um indicativo de boa
linearidade, quando os resíduos são distribuídos, razoavelmente,
em simetria ao longo do eixo x.
Regressão LinearCoeficiente de correlação r
Para que predições feitas com uma curva de calibração, tenham
incertezas pequenas, r necessita ser bem próximo de 1.
Tendências não lineares são observadas mesmo para r≈0,999.
Baixos valores de r não necessariamente significam que não existe
relação.
Uma relação não linear não necessariamente conduz a um
coeficiente de correlação linear alto.
Regressão LinearIncertezas na determinação dos valores de x
Uma vez que a regressão linear tenha sido detectada e a melhor
reta ajustada, a equação pode ser usada para determinar valores
de x, a partir de valores determinados experimentalmente para y.
ො𝑥 =ത𝑦0−𝑎
𝑏onde ത𝑦0 é a média de N medições repetidas para 𝑦.
Há uma incerteza associada com ො𝑥 que pode ser calculada pela
equação: 𝑠 ො𝑥 =𝑠 Τ𝑦 𝑥
𝑏
1
𝑁+
1
𝑛+
ത𝑦0−ത𝑦 2
𝑏2 σ𝑖=1𝑛 𝑥𝑖− ҧ𝑥 2
Onde 𝑠 ො𝑥 é chamado de erro padrão na determinação de ො𝑥.
A incerteza na determinação de ො𝑥 tem um mínimo na ponto central
da reta ҧ𝑥, ത𝑦 , aumentando para os pontos extremos.
O intervalo de confiança para ො𝑥 é dado por: ො𝑥 ± 𝑡 . 𝑠 ො𝑥
Regressão Linear
A resposta de um instrumento é determinada por uma solução padrão
com seis diferentes concentrações.
Cálculo de b e a.
𝑏 =σ𝑖=1𝑛 𝑥𝑖 − ҧ𝑥 𝑦𝑖 − ത𝑦
σ𝑖=1𝑛 𝑥𝑖 − ҧ𝑥 2
=708,0
70= 10,114
𝑎 = ത𝑦 − 𝑏 ҧ𝑥 = 51,67 − 10,114 𝑥 5 = 1,100
Exercício
Concentração (x) 0 2 4 6 8 10 Média (x) 5
Resposta (y) 0 24 41 60 82 103 Média (y) 51,67
Regressão Linear
Utilizando-se o software Minitab, obtemos os seguintes valores:
Exercício
Concentração (x) 0 2 4 6 8 10 Média (x) 5
Resposta (y) 0 24 41 60 82 103 Média (y) 51,67
Regressão LinearExercício
nonconstant varianceOne of the assumptions of regression andANOVA is that the variance of the errorterm is constant. In the residual versusthe fitted values plot, the errors haveconstant variance when the residuals arescattered randomly around zero. If theresiduals increase or decrease with thefitted values in a pattern that looks like afunnel, the errors may not have constantvariance.
higher-order term
The order of a term in a regression model corresponds to that term's exponential degree: a linear term
(x) is a first-order term; a quadratic term (x ) is a second-order term; and a two-way interaction (x1x2) is
also a second-order term.
Higher-order terms can be used to model curvature in data. A curvilinear pattern in the residual versus
fitted values plot can indicate that you need to add a higher-order term to your model. Plotting individual
variables in your model versus the residuals can help you determine which variables have a curvilinear
relationship with the response.
Regressão LinearExercício
outlier
An observation with a large residual value. Outliers can be the result of data collection or data entry errors, and should be checked.
influential observationAn observation with greater influence on the model compared to other observations. By including and thenexcluding an influential observation in a regression model you can determine how much of an impact theobservation has on the coefficients. You should examine this observation to determine why it is influential.
Regressão Linear
Utilizando-se o software Minitab, obtemos os seguintes valores:
Exercício
The predictionbands (orpredictionintervals, PI)illustrate therange of likelyvalues for newobservations.They representa series ofpredictionintervals thatspan the rangeof observeddensity values.
Regressão Linear
Utilizando-se o software Minitab, obtemos os seguintes valores:
Exercício
Concentração (x) 0 2 4 6 8 10 Média (x) 5
Resposta (y) 0 24 41 60 82 103 Média (y) 51,67
Regressão Linear
Utilizando-se o software Minitab, obtemos os seguintes valores:
Exercício
Concentração (x) 0 2 4 6 8 10 Média (x) 5
Resposta (y) 0 24 41 60 82 103 Média (y) 51,67
Regressão Linear
Utilizando-se o software Minitab, obtemos os seguintes valores:
Exercício
Concentração (x) 0 2 4 6 8 10 Média (x) 5
Resposta (y) 0 24 41 60 82 103 Média (y) 51,67
Regressão LinearExercício
Não se pode afirmar que a intersecção seja diferente de zero
Pode-se afirmar que a inclinação é diferente de zero. Portanto y e x são fortemente correlacionados
a - intersecção
Desvio padrão dos resíduos
𝐻0 𝑖𝑛𝑡𝑒𝑟𝑠𝑒𝑐çã𝑜: 𝑖𝑛𝑡𝑒𝑟𝑠𝑒𝑐çã𝑜 = 0;𝐻𝐴: 𝑖𝑛𝑡𝑒𝑟𝑠𝑒𝑐çã𝑜 ≠ 0;
𝐻0 𝑖𝑛𝑐𝑙𝑖𝑛𝑎çã𝑜: 𝑖𝑛𝑐𝑙𝑖𝑛𝑎çã𝑜 = 0;𝐻𝐴: 𝑖𝑛𝑐𝑙𝑖𝑛𝑎çã𝑜 ≠ 0;
Portanto y e x são fortemente correlacionados
Regressão LinearExercício
Parâmetro usadopara indicar ainteração entreos preditoresutilizados. Nãoveremos suaaplicação, já quetemos apenas umpreditor.
a - intersecção
Desvio padrão dos resíduos
𝐻0 𝑖𝑛𝑡𝑒𝑟𝑠𝑒𝑐çã𝑜: 𝑖𝑛𝑡𝑒𝑟𝑠𝑒𝑐çã𝑜 = 0;𝐻𝐴: 𝑖𝑛𝑡𝑒𝑟𝑠𝑒𝑐çã𝑜 ≠ 0;
𝐻0 𝑖𝑛𝑐𝑙𝑖𝑛𝑎çã𝑜: 𝑖𝑛𝑐𝑙𝑖𝑛𝑎çã𝑜 = 0;𝐻𝐴: 𝑖𝑛𝑐𝑙𝑖𝑛𝑎çã𝑜 ≠ 0;
Portanto y e x são fortemente correlacionados
Assess the VIF values. If the VIF values are all close to 1, thisindicates that the predictors are not correlated. VIF valuesgreater than 5 suggest that the regression coefficients arepoorly estimated.
Regressão Linear
Interpretação dos valores de r indicados pelo software Minitab.
Exercício
S, R 2 and adjusted R2 are measures of how well the model fits the data.
These values can help you select the model with the best fit.
· S is measured in the units of the response variable and represents the
standard distance that data values fall from the regression line. For a given
study, the better the equation predicts the response, the lower S is.
· R 2 (R-Sq) describes the amount of variation in the observed response
values that is explained by the predictor(s) . R2 always increases with
additional predictors. For example, the best five-predictor model will always
have a higher R2 than the best four-predictor model. Therefore, R2 is most
useful when comparing models of the same size.
· Adjusted R2 is a modified R2 that has been adjusted for the number of
terms in the model. If you include unnecessary terms, R2 can be artificially
high. Unlike R2 , adjusted R2 may get smaller when you add terms to the
model. Use adjusted R2 to compare models with different numbers of
predictors.
Regressão LinearExercício
Press and R2 (pred) are measures of how well the model predicts the
response.
· PRESS is the sum of squares of the prediction error. In general, the
smaller the PRESS value, the better the model's predictive ability.
PRESS is used to calculate the predicted R.
· R2 (pred) indicates how well the model predicts responses for new
observations. Predicted R2 can prevent overfitting the model. This
statistic is more useful than adjusted R for comparing models because
it is calculated with observations not included in model calculation.
Larger values of predicted R2 suggest models of greater predictive
ability.
Interpretação dos valores de r indicados pelo software Minitab.
Regressão LinearExercício
Example Output:
Summary of Model
S = 3.99399 R-Sq = 92.95% R-Sq(adj) = 91.12%
PRESS = 880.182 R-Sq(pred) = 85.59%
Interpretation
The model explains 92.95% of the variation in the Salary data. The
adjusted R is 91.12%. R (pred) is 85.59%, indicating that the model
explains 85.59% of the variation in Salary when the model is used for
prediction.
Interpretação dos valores de r indicados pelo software Minitab.
Regressão LinearExercício
Interpretação dos valores de r indicados pelo software Minitab.
Prediction sum of squares (PRESS)Assesses your model's predictive ability. In general, the smaller the PRESS value, thebetter the model's predictive ability. PRESS is used to calculate the predicted R2 whichis generally more intuitive to interpret. Together, these statistics can help preventoverfitting the model because it is calculated using observations not included in modelestimation. Overfitting refers to models that appear to explain the relationship betweenthe predictor and response variables for the data set used for model calculation but failto provide valid predictions for new observations.
PRESS, similar to the error sum of squares (SSE), is the sum of squares of the predictionerror. PRESS differs from SSE in that each fitted value, i, for PRESS is obtained byexcluding the ith observation from the data set, estimating the regression equationfrom the remaining n - 1 observations, then using the fitted regression function toobtain the predicted value for the ith observation.
Regressão LinearExercício sobre incerteza de x
A equação de melhor ajuste do exercício anterior era
y=1,100+10,114 x. A resposta para uma concentração é 80.
Determine o valor da concentração e sua incerteza.
ො𝑥 =ത𝑦0 − 𝑎
𝑏=80 − 1,100
10,114= 7,80 𝑚𝑔/𝑙
A incerteza associada com ො𝑥 pode ser calculada pela equação:
𝑠 ො𝑥 =𝑠 Τ𝑦 𝑥
𝑏
1
𝑁+
1
𝑛+
ത𝑦0−ത𝑦 2
𝑏2 σ𝑖=1𝑛 𝑥𝑖− ҧ𝑥 2 =
1,762
10,114
1
1+
1
6+
80−51,67 2
10,1142.70= 0,197
O intervalo de confiança para 95% do valor de concentração.
ො𝑥 ± 𝑡 . 𝑠 ො𝑥 = 7,80 ± 2,776 𝑥 0,197 = 7,80 ± 0,55mg/l
Onde 2,776 é o valor t student para distribuição bicaudal 95%; 𝜈 =𝑛 − 2 = 6 − 2 = 4
Regressão LinearANOVA para regressão linear
Um software para regressão linear pode fornecer uma tabela de
análise de variância, como apresentada abaixo:
Variação relacionada com os erros residuais
Variação relacionada com aprópria regressão, indica acorrelação entre x e y. Tem queser significativamente maiorque a variação dos resíduos.
Como no teste de significância da inclinação da reta, o
teste de significância ANOVA indica uma relação
significativa entre as variáveis.
Regressão LinearANOVA para regressão linear - Exercício
Abaixo a tabela de análise de variância do exercício anterior. Pode-
se observar e concluir que as variâncias são significativamente
diferentes, já que P value deu praticamente zero. O valor crítico
para F é 7,709 𝜈1 = 1 𝑒 𝜈2 = 4 para 95% de significância, portanto
bem inferior aos 2306 obtido. Portanto a correlação entre x e y é
significativa.
Analysis of Variance
Source DF Seq SS Adj SS Adj MS F PRegression 1 7160,91 7160,91 7160,91 2306,43 0,0000011
Concentração (x) 1 7160,91 7160,91 7160,91 2306,43 0,0000011Error 4 12,42 12,42 3,10Total 5 7173,33
Regressão LinearExercícioVerifique a equação que relaciona as concentrações de OE e as
respostas de um cromatógrafo.
Conc ug/ml (x) -Cal 08/11/11 Resp Área Cromat
0,226 1,47742
0,566 2,63776
1,131 4,27442
2,263 9,3586
11,313 34,04582
22,626 66,92342
56,566 168,18115
Regressão LinearExercícioVerifique a equação que relaciona as concentrações de OE e as
respostas de um cromatógrafo.
Conc ug/ml (x) -Cal 08/11/11 Resp Área Cromat
0,226 1,47742
0,566 2,63776
1,131 4,27442
2,263 9,3586
11,313 34,04582
22,626 66,92342
56,566 168,18115
Regressão LinearExercícioVerifique a equação que relaciona as concentrações de OE e as
respostas de um cromatógrafo.
Conc ug/ml (x) -Cal 08/11/11 Resp Área Cromat
0,226 1,47742
0,566 2,63776
1,131 4,27442
2,263 9,3586
11,313 34,04582
22,626 66,92342
56,566 168,18115
Regressão LinearExercícioVerifique a equação que relaciona as concentrações de OE e as
respostas de um cromatógrafo.
Conc ug/ml (x) -Cal 08/11/11 Resp Área Cromat
0,226 1,47742
0,566 2,63776
1,131 4,27442
2,263 9,3586
11,313 34,04582
22,626 66,92342
56,566 168,18115
Regressão LinearExercícioVerifique a equação que relaciona as concentrações de OE e as
respostas de um cromatógrafo.
Conc ug/ml (x) -Cal 08/11/11 Resp Área Cromat
0,226 1,47742
0,566 2,63776
1,131 4,27442
2,263 9,3586
11,313 34,04582
22,626 66,92342
56,566 168,18115
Regressão LinearExercícioVerifique a equação que relaciona as concentrações de OE e as
respostas de um cromatógrafo.
Conc ug/ml (x) -Cal 08/11/11 Resp Área Cromat
0,226 1,47742
0,566 2,63776
1,131 4,27442
2,263 9,3586
11,313 34,04582
22,626 66,92342
56,566 168,18115
Regressão LinearExercícioVerifique a equação que relaciona as concentrações de OE e as
respostas de um cromatógrafo.
Conc ug/ml (x) -Cal 08/11/11 Resp Área Cromat
0,226 1,47742
0,566 2,63776
1,131 4,27442
2,263 9,3586
11,313 34,04582
22,626 66,92342
56,566 168,18115
Regressão LinearExercício
Verifique a
equação que
relaciona as
concentrações
de OE e as
respostas de
um
cromatógrafo.Conc ug/ml (x) -Cal 08/11/11 Resp Área Cromat
0,226 1,47742
0,566 2,63776
1,131 4,27442
2,263 9,3586
11,313 34,04582
22,626 66,92342
56,566 168,18115
Regressão LinearExercício
Verifique a
equação que
relaciona as
concentrações
de OE e as
respostas de
um
cromatógrafo.Conc ug/ml (x) -Cal 08/11/11 Resp Área Cromat
0,226 1,47742
0,566 2,63776
1,131 4,27442
2,263 9,3586
11,313 34,04582
22,626 66,92342
56,566 168,18115
Regressão LinearExercícioVerifique a equação que relaciona as concentrações de OE e as
respostas de um cromatógrafo.
Regressão LinearExercício
Verifique a equação que relaciona as
doses de radiação com as áreas
sensibilizadas.
4000 58,0423500 61,2513000 65,292500 69,3332000 73,3891500 79,6961000 97,697500 104,354100 138,82610 150,1554000 58,0493500 61,2513000 65,2792500 69,3222000 73,3631500 79,6541000 87,652500 104,277100 138,90610 150,0674000 58,0123500 61,2233000 65,2382500 69,3852000 73,3041500 79,6131000 87,614500 104,242100 138,8610 150,048
Doses (cGy) 10/11 Pixels4000 59,063500 61,2533000 65,2812500 69,3332000 73,3891500 79,6661000 97,697500 104,354100 138,89410 150,1554000 58,0463500 61,2523000 65,2842500 69,3252000 73,3891500 79,7131000 97,713500 104,354100 138,86110 150,143
Regressão LinearExercício
Verifique a equação que relaciona as
doses de radiação com as áreas
sensibilizadas.
Regressão LinearExercício
Verifique a equação que relaciona as
doses de radiação com as áreas
sensibilizadas.
Regressão LinearExercício
Verifique a equação que relaciona as
doses de radiação com as áreas
sensibilizadas.
Regressão LinearCalibração, recomendações de projeto
Se as incertezas de calibração são pequenas comparada com
outros efeitos na análise de rotina, o projeto de calibração não é
crítico. Contudo se as incertezas de calibração são significativas, as
seguintes orientações são importantes:
- Use pelo menos 5 observações independentes;
- Espace as concentrações o mais igualmente possível;
- Assegure que as médias das concentração dos materiais de
calibração sejam próximas à concentração de interesse.
- Inclua replicações independentes para aumentar a precisão;
- Aumente o número de replicatas para no mínimo 3;
- Teste as observações extremas quanto a significância;
Regressão LinearCalibração, recomendações de projeto
Se as incertezas de calibração são pequenas comparada com
outros efeitos na análise de rotina, o projeto de calibração não é
crítico. Contudo se as incertezas de calibração são significativas, as
seguintes orientações são importantes:
- Verifique a normalidade dos resíduos;
- Aumente o número de concentrações independentes (mínimo 7);
- Não force a passagem da reta pelo ponto (0;0);
- Não inclua o ponto (0;0) quando este não foi medido.
Regressão LinearIntervalo de predição
Um modelo de regressão pode ser usado para prever a variável resposta,correspondente a valores da variável explicativa não considerada noexperimento. Chamamos de predição a obtenção de um valor de Y paraum x que não pertence aos dados, porém pertence ao intervalo devariação estudado. Em situações em que o valor de x não pertence aointervalo estudado, denominamos de extrapolação.Seja xh dado valor da variável explicativa x que não pertence a amostra.Então, é um estimador não viciado para pois .
Chamamos de erro na previsão a diferença cuja variância é dada por
De maneira semelhante à realizada em Intervalo de confiança para aresposta média, podemos demonstrar queAssim, o intervalo de predição para é,