Apresentação do PowerPoint - energiapura.net.br · Regressão Linear Incertezas na determinação...

Regressão Linear

Disciplina: Planejamento e Análise de Experimentos PAE – PPGEB

Professores

Miguel Antonio Sovierzoski, [email protected];

Vicente Machado Neto, [email protected];

Regressão Linear

A regressão linear é usada para estabelecer ou confirmar a relação entre

duas variáveis.

Na química analítica normalmente é utilizada para expressar a relação

entre a resposta analítica e por exemplo a concentração de um analito.

A equação geral que descreve a curva ajustada pode ser escrita como:

𝑦 = 𝑎 + 𝑏𝑥Onde 𝑏 é a inclinação da reta e 𝑎 é onde a reta intercepta o eixo y.

O método dos mínimos quadrados para regressão linear é usado para

achar-se os valores de 𝑎 e 𝑏. O melhor ajuste é obtido pela reta que

minimiza a soma quadrática das diferenças entre os valores obtidos para

y e a reta ajustada, os chamados resíduos.

Regressão Linear

As diferenças observadas entre os valores de y e os valores da reta ො𝑦 ,

são conhecidos como resíduos. A forma mais comum de regressão é de

y dado x, onde assume-se que os valores de x são conhecidos

exatamente e o único erro ocorre na medida de y.

Pressuposto da Regressão Linear:

- Os erros em x podem ser desconsiderados;

- Para o cálculo dos intervalos de confiança os erros associados com

os valores de y devem ser normalmente distribuídos. A média de 3 ou

mais valores já garante a normalidade;

- A variância dos erros de y devem ser constantes ao longo da faixa de

interesse;

- Os valores de x e y devem ser contínuos.

A inspeção visual dos dados e resíduos são os meios mais eficientes

para verificar as suposições acima.

Regressão Linear

Antes de efetuar a regressão linear é uma boa prática examinar os

dados tentando identificar possíveis outliers.

Exame visual dos dados

Altas médias

causadas por

uma desigual

distribuição

dos pontos.

Regressão Linear




Outlier alterando a

inclinação da reta

ajustada.

Regressão Linear




Outlier alterando a

intersecção do

eixo y pela reta

ajustada.

Regressão Linear

Para cálculo de 𝑏 e 𝑎 as seguintes equações são utilizadas:

𝑏 =σ𝑖=1𝑛 𝑥𝑖 − ҧ𝑥 𝑦𝑖 − ത𝑦

σ𝑖=1𝑛 𝑥𝑖 − ҧ𝑥 2

𝑎 = ത𝑦 − 𝑏 ҧ𝑥ҧ𝑥 𝑒 ത𝑦 são as médias de x e y.

Uma vez que a e b tenham sidos calculados podemos calcular os

resíduos e o desvio padrão dos resíduos.

𝑦𝑖 = é um valor medido (proveniente dos meus dados);

ෝ𝑦𝑖 = é um valor obtido pela reta ajustada;

𝑦𝑖 − ෝ𝑦𝑖 = é um resíduo;

𝑛 = número de pares medidos (dados).

𝑠 Τ𝑦 𝑥 =σ𝑖=1𝑛 𝑦𝑖 − ෝ𝑦𝑖

2

𝑛 − 2

𝑛 − 2 = é o número de graus de liberdade do desvio padrão dos

resíduos.

Cálculo da inclinação e intersecção

Regressão Linear

O desvio padrão da inclinação 𝑠𝑏 é calculado usando-se a equação:

𝑠𝑏 =𝑠 Τ𝑦 𝑥


O desvio padrão da intersecção estimada 𝑠𝑎 usando-se a equação:

𝑠𝑎 = 𝑠 Τ𝑦 𝑥

σ𝑖=1𝑛 𝑥𝑖

2

𝑛σ𝑖=1𝑛 𝑥𝑖 − ҧ𝑥 2

Os intervalos de confiança para as estimativas da inclinação e

intersecção da reta são:

𝑏 ± 𝑡. 𝑠𝑏𝑎 ± 𝑡. 𝑠𝑎

𝑡 = 𝑣𝑎𝑙𝑜𝑟 𝑡 𝑠𝑡𝑢𝑑𝑒𝑛𝑡 𝑏𝑖𝑐𝑎𝑢𝑑𝑎𝑙 𝑝𝑎𝑟𝑎 ∝= 0,05 𝑒 𝜈 = 𝑛 − 2.

Cálculo da inclinação e intersecção

Regressão Linear

A plotagem dos resíduos pode identificar problemas da curva ajustada

incorretamente ou sem qualidade. Caso haja um bom ajuste entre os

dados e a curva os resíduos devem ser distribuídos aleatoriamente em

relação ao zero.

Inspeção dos resíduos

Distribuição ideal dos

resíduos. Os resíduos estão

distribuídos aleatoriamente

em torno do zero e não há

uma tendência definida de

variação do desvio padrão

com a concentração.

Regressão Linear

Mostra os resíduos do ajuste

quando os dados não seguem

uma reta, mas uma reta foi

ajustada. Provavelmente o

melhor modelo de ajuste não

seja linear.


Mostra uma tendência de

aumento do desvio padrão

de y com a concentração.

Regressão Linear

Mostra evidências de uma

aproximação dos resíduos,

em relação ao zero, a cada

valor de x, isto pode indicar

uma correlação entre os

resíduos. Pode-se aplicar

ANOVA para verificar este

efeito.


Mostra um padrão de

resíduos quando a reta foi

incorretamente forçada a

passar por zero

Regressão Linear

Inspeção dos

resíduos

Parâmetros de

verificação indicados

pelo MiniTab

Regressão LinearCoeficiente de correlação r

O coeficiente de correlação é determinado pela equação:

𝑟 =σ𝑖=1𝑛 𝑥𝑖 − ҧ𝑥 𝑦𝑖 − ത𝑦

σ𝑖=1𝑛 𝑥𝑖 − ҧ𝑥 2 σ𝑖=1

𝑛 𝑦𝑖 − ത𝑦 2

O coeficiente de correlação mede o grau de associação linear entre

as variáveis x e y. O valor de r está na faixa de ± 1.

O coeficiente de correlação não pode ser tomado como uma

medida de linearidade.

O coeficiente r só pode ser interpretado como um indicativo de boa

linearidade, quando os resíduos são distribuídos, razoavelmente,

em simetria ao longo do eixo x.

Regressão LinearCoeficiente de correlação r

Para que predições feitas com uma curva de calibração, tenham

incertezas pequenas, r necessita ser bem próximo de 1.

Tendências não lineares são observadas mesmo para r≈0,999.

Baixos valores de r não necessariamente significam que não existe

relação.

Uma relação não linear não necessariamente conduz a um

coeficiente de correlação linear alto.

Regressão LinearIncertezas na determinação dos valores de x

Uma vez que a regressão linear tenha sido detectada e a melhor

reta ajustada, a equação pode ser usada para determinar valores

de x, a partir de valores determinados experimentalmente para y.

ො𝑥 =ത𝑦0−𝑎

𝑏onde ത𝑦0 é a média de N medições repetidas para 𝑦.

Há uma incerteza associada com ො𝑥 que pode ser calculada pela

equação: 𝑠 ො𝑥 =𝑠 Τ𝑦 𝑥

𝑏

1

𝑁+

1

𝑛+

ത𝑦0−ത𝑦 2

𝑏2 σ𝑖=1𝑛 𝑥𝑖− ҧ𝑥 2

Onde 𝑠 ො𝑥 é chamado de erro padrão na determinação de ො𝑥.

A incerteza na determinação de ො𝑥 tem um mínimo na ponto central

da reta ҧ𝑥, ത𝑦 , aumentando para os pontos extremos.

O intervalo de confiança para ො𝑥 é dado por: ො𝑥 ± 𝑡 . 𝑠 ො𝑥

Regressão Linear

A resposta de um instrumento é determinada por uma solução padrão

com seis diferentes concentrações.

Cálculo de b e a.

𝑏 =σ𝑖=1𝑛 𝑥𝑖 − ҧ𝑥 𝑦𝑖 − ത𝑦


=708,0

70= 10,114

𝑎 = ത𝑦 − 𝑏 ҧ𝑥 = 51,67 − 10,114 𝑥 5 = 1,100

Exercício

Concentração (x) 0 2 4 6 8 10 Média (x) 5

Resposta (y) 0 24 41 60 82 103 Média (y) 51,67

Regressão Linear

Utilizando-se o software Minitab, obtemos os seguintes valores:

Exercício



Regressão Linear

Utilizando-

se o

software

Minitab,

obtemos os

seguintes

valores:

Exercício

Regressão LinearExercício

nonconstant varianceOne of the assumptions of regression andANOVA is that the variance of the errorterm is constant. In the residual versusthe fitted values plot, the errors haveconstant variance when the residuals arescattered randomly around zero. If theresiduals increase or decrease with thefitted values in a pattern that looks like afunnel, the errors may not have constantvariance.

higher-order term

The order of a term in a regression model corresponds to that term's exponential degree: a linear term

(x) is a first-order term; a quadratic term (x ) is a second-order term; and a two-way interaction (x1x2) is

also a second-order term.

Higher-order terms can be used to model curvature in data. A curvilinear pattern in the residual versus

fitted values plot can indicate that you need to add a higher-order term to your model. Plotting individual

variables in your model versus the residuals can help you determine which variables have a curvilinear

relationship with the response.


outlier

An observation with a large residual value. Outliers can be the result of data collection or data entry errors, and should be checked.

influential observationAn observation with greater influence on the model compared to other observations. By including and thenexcluding an influential observation in a regression model you can determine how much of an impact theobservation has on the coefficients. You should examine this observation to determine why it is influential.

Regressão Linear


Exercício

The predictionbands (orpredictionintervals, PI)illustrate therange of likelyvalues for newobservations.They representa series ofpredictionintervals thatspan the rangeof observeddensity values.

Regressão Linear


Exercício




Não se pode afirmar que a intersecção seja diferente de zero

Pode-se afirmar que a inclinação é diferente de zero. Portanto y e x são fortemente correlacionados

a - intersecção

Desvio padrão dos resíduos

𝐻0 𝑖𝑛𝑡𝑒𝑟𝑠𝑒𝑐çã𝑜: 𝑖𝑛𝑡𝑒𝑟𝑠𝑒𝑐çã𝑜 = 0;𝐻𝐴: 𝑖𝑛𝑡𝑒𝑟𝑠𝑒𝑐çã𝑜 ≠ 0;

𝐻0 𝑖𝑛𝑐𝑙𝑖𝑛𝑎çã𝑜: 𝑖𝑛𝑐𝑙𝑖𝑛𝑎çã𝑜 = 0;𝐻𝐴: 𝑖𝑛𝑐𝑙𝑖𝑛𝑎çã𝑜 ≠ 0;

Portanto y e x são fortemente correlacionados


Parâmetro usadopara indicar ainteração entreos preditoresutilizados. Nãoveremos suaaplicação, já quetemos apenas umpreditor.

a - intersecção

Desvio padrão dos resíduos

𝐻0 𝑖𝑛𝑡𝑒𝑟𝑠𝑒𝑐çã𝑜: 𝑖𝑛𝑡𝑒𝑟𝑠𝑒𝑐çã𝑜 = 0;𝐻𝐴: 𝑖𝑛𝑡𝑒𝑟𝑠𝑒𝑐çã𝑜 ≠ 0;

𝐻0 𝑖𝑛𝑐𝑙𝑖𝑛𝑎çã𝑜: 𝑖𝑛𝑐𝑙𝑖𝑛𝑎çã𝑜 = 0;𝐻𝐴: 𝑖𝑛𝑐𝑙𝑖𝑛𝑎çã𝑜 ≠ 0;

Portanto y e x são fortemente correlacionados

Assess the VIF values. If the VIF values are all close to 1, thisindicates that the predictors are not correlated. VIF valuesgreater than 5 suggest that the regression coefficients arepoorly estimated.

Regressão Linear

Interpretação dos valores de r indicados pelo software Minitab.

Exercício

S, R 2 and adjusted R2 are measures of how well the model fits the data.

These values can help you select the model with the best fit.

· S is measured in the units of the response variable and represents the

standard distance that data values fall from the regression line. For a given

study, the better the equation predicts the response, the lower S is.

· R 2 (R-Sq) describes the amount of variation in the observed response

values that is explained by the predictor(s) . R2 always increases with

additional predictors. For example, the best five-predictor model will always

have a higher R2 than the best four-predictor model. Therefore, R2 is most

useful when comparing models of the same size.

· Adjusted R2 is a modified R2 that has been adjusted for the number of

terms in the model. If you include unnecessary terms, R2 can be artificially

high. Unlike R2 , adjusted R2 may get smaller when you add terms to the

model. Use adjusted R2 to compare models with different numbers of

predictors.


Press and R2 (pred) are measures of how well the model predicts the

response.

· PRESS is the sum of squares of the prediction error. In general, the

smaller the PRESS value, the better the model's predictive ability.

PRESS is used to calculate the predicted R.

· R2 (pred) indicates how well the model predicts responses for new

observations. Predicted R2 can prevent overfitting the model. This

statistic is more useful than adjusted R for comparing models because

it is calculated with observations not included in model calculation.

Larger values of predicted R2 suggest models of greater predictive

ability.



Example Output:

Summary of Model

S = 3.99399 R-Sq = 92.95% R-Sq(adj) = 91.12%

PRESS = 880.182 R-Sq(pred) = 85.59%

Interpretation

The model explains 92.95% of the variation in the Salary data. The

adjusted R is 91.12%. R (pred) is 85.59%, indicating that the model

explains 85.59% of the variation in Salary when the model is used for

prediction.




Prediction sum of squares (PRESS)Assesses your model's predictive ability. In general, the smaller the PRESS value, thebetter the model's predictive ability. PRESS is used to calculate the predicted R2 whichis generally more intuitive to interpret. Together, these statistics can help preventoverfitting the model because it is calculated using observations not included in modelestimation. Overfitting refers to models that appear to explain the relationship betweenthe predictor and response variables for the data set used for model calculation but failto provide valid predictions for new observations.

PRESS, similar to the error sum of squares (SSE), is the sum of squares of the predictionerror. PRESS differs from SSE in that each fitted value, i, for PRESS is obtained byexcluding the ith observation from the data set, estimating the regression equationfrom the remaining n - 1 observations, then using the fitted regression function toobtain the predicted value for the ith observation.

Regressão LinearExercício sobre incerteza de x

A equação de melhor ajuste do exercício anterior era

y=1,100+10,114 x. A resposta para uma concentração é 80.

Determine o valor da concentração e sua incerteza.

ො𝑥 =ത𝑦0 − 𝑎

𝑏=80 − 1,100

10,114= 7,80 𝑚𝑔/𝑙

A incerteza associada com ො𝑥 pode ser calculada pela equação:

𝑠 ො𝑥 =𝑠 Τ𝑦 𝑥

𝑏

1

𝑁+

1

𝑛+

ത𝑦0−ത𝑦 2

𝑏2 σ𝑖=1𝑛 𝑥𝑖− ҧ𝑥 2 =

1,762

10,114

1

1+

1

6+

80−51,67 2

10,1142.70= 0,197

O intervalo de confiança para 95% do valor de concentração.

ො𝑥 ± 𝑡 . 𝑠 ො𝑥 = 7,80 ± 2,776 𝑥 0,197 = 7,80 ± 0,55mg/l

Onde 2,776 é o valor t student para distribuição bicaudal 95%; 𝜈 =𝑛 − 2 = 6 − 2 = 4

Regressão LinearExercício sobre incerteza de x

Regressão LinearANOVA para regressão linear

Um software para regressão linear pode fornecer uma tabela de

análise de variância, como apresentada abaixo:

Variação relacionada com os erros residuais

Variação relacionada com aprópria regressão, indica acorrelação entre x e y. Tem queser significativamente maiorque a variação dos resíduos.

Como no teste de significância da inclinação da reta, o

teste de significância ANOVA indica uma relação

significativa entre as variáveis.

Regressão LinearANOVA para regressão linear - Exercício

Abaixo a tabela de análise de variância do exercício anterior. Pode-

se observar e concluir que as variâncias são significativamente

diferentes, já que P value deu praticamente zero. O valor crítico

para F é 7,709 𝜈1 = 1 𝑒 𝜈2 = 4 para 95% de significância, portanto

bem inferior aos 2306 obtido. Portanto a correlação entre x e y é

significativa.

Analysis of Variance

Source DF Seq SS Adj SS Adj MS F PRegression 1 7160,91 7160,91 7160,91 2306,43 0,0000011

Concentração (x) 1 7160,91 7160,91 7160,91 2306,43 0,0000011Error 4 12,42 12,42 3,10Total 5 7173,33

Regressão LinearExercícioVerifique a equação que relaciona as concentrações de OE e as

respostas de um cromatógrafo.

Conc ug/ml (x) -Cal 08/11/11 Resp Área Cromat

0,226 1,47742

0,566 2,63776

1,131 4,27442

2,263 9,3586

11,313 34,04582

22,626 66,92342

56,566 168,18115


Verifique a

equação que

relaciona as

concentrações

de OE e as

respostas de

um

cromatógrafo.Conc ug/ml (x) -Cal 08/11/11 Resp Área Cromat

0,226 1,47742

0,566 2,63776

1,131 4,27442

2,263 9,3586

11,313 34,04582

22,626 66,92342

56,566 168,18115

Regressão LinearExercícioVerifique a equação que relaciona as concentrações de OE e as

respostas de um cromatógrafo.


Verifique a equação que relaciona as

doses de radiação com as áreas

sensibilizadas.

4000 58,0423500 61,2513000 65,292500 69,3332000 73,3891500 79,6961000 97,697500 104,354100 138,82610 150,1554000 58,0493500 61,2513000 65,2792500 69,3222000 73,3631500 79,6541000 87,652500 104,277100 138,90610 150,0674000 58,0123500 61,2233000 65,2382500 69,3852000 73,3041500 79,6131000 87,614500 104,242100 138,8610 150,048

Doses (cGy) 10/11 Pixels4000 59,063500 61,2533000 65,2812500 69,3332000 73,3891500 79,6661000 97,697500 104,354100 138,89410 150,1554000 58,0463500 61,2523000 65,2842500 69,3252000 73,3891500 79,7131000 97,713500 104,354100 138,86110 150,143




sensibilizadas.

Regressão Linear




sensibilizadas.

Regressão Linear

Regressão Linear

Comparação das regressões linear e quadrática para 1 g.l.




sensibilizadas.

Regressão Linear

Regressão Linear

Comparação das regressões linear, quadrática e cúbica para 1 g.l.

Regressão LinearCalibração, recomendações de projeto

Se as incertezas de calibração são pequenas comparada com

outros efeitos na análise de rotina, o projeto de calibração não é

crítico. Contudo se as incertezas de calibração são significativas, as

seguintes orientações são importantes:

- Use pelo menos 5 observações independentes;

- Espace as concentrações o mais igualmente possível;

- Assegure que as médias das concentração dos materiais de

calibração sejam próximas à concentração de interesse.

- Inclua replicações independentes para aumentar a precisão;

- Aumente o número de replicatas para no mínimo 3;

- Teste as observações extremas quanto a significância;

Regressão LinearCalibração, recomendações de projeto

Se as incertezas de calibração são pequenas comparada com

outros efeitos na análise de rotina, o projeto de calibração não é

crítico. Contudo se as incertezas de calibração são significativas, as

seguintes orientações são importantes:

- Verifique a normalidade dos resíduos;

- Aumente o número de concentrações independentes (mínimo 7);

- Não force a passagem da reta pelo ponto (0;0);

- Não inclua o ponto (0;0) quando este não foi medido.

Regressão LinearIntervalo de predição

Um modelo de regressão pode ser usado para prever a variável resposta,correspondente a valores da variável explicativa não considerada noexperimento. Chamamos de predição a obtenção de um valor de Y paraum x que não pertence aos dados, porém pertence ao intervalo devariação estudado. Em situações em que o valor de x não pertence aointervalo estudado, denominamos de extrapolação.Seja xh dado valor da variável explicativa x que não pertence a amostra.Então, é um estimador não viciado para pois .

Chamamos de erro na previsão a diferença cuja variância é dada por

De maneira semelhante à realizada em Intervalo de confiança para aresposta média, podemos demonstrar queAssim, o intervalo de predição para é,

Referências Bibliográficas

- A Bench Guide. ELLISON, S.L.R.; BARWICK, V.J.;

FARRANT, T.J.D. Practical Statistics for the Analytical

Scientist. RSC Publishing. 2ª Edição. 2009.

Apresentação do PowerPoint - energiapura.net.br · Regressão Linear Incertezas na determinação...

Documents

Transcript of Apresentação do PowerPoint - energiapura.net.br · Regressão Linear Incertezas na determinação...