MEDIC˘AO DA QUALIDADE DO VINHO BRANCO NORTE …taconeli/CE22517/Grupo9.pdf · 2017. 8. 30. · 1...

7
Universidade Federal do Paran´ a Departamento de Estat´ ıstica MEDIC ¸ ˜ AO DA QUALIDADE DO VINHO BRANCO NORTE PORTUGU ˆ ES CE225 - Modelos Lineares Generalizados Francielle Przibiciem de Mattos GRR20124686 Guilherme Henrique Stadler de Mello GRR20124678 Simone Matsubara GRR20124663 Curitiba, 25 de Agosto de 2017

Transcript of MEDIC˘AO DA QUALIDADE DO VINHO BRANCO NORTE …taconeli/CE22517/Grupo9.pdf · 2017. 8. 30. · 1...

Page 1: MEDIC˘AO DA QUALIDADE DO VINHO BRANCO NORTE …taconeli/CE22517/Grupo9.pdf · 2017. 8. 30. · 1 Introdu˘c~ao A partir de uma amostra de vinho branco do norte de Portugal, temos

Universidade Federal do ParanaDepartamento de Estatıstica

MEDICAO DA QUALIDADE DO VINHO BRANCO NORTE PORTUGUES

CE225 - Modelos Lineares Generalizados

Francielle Przibiciem de Mattos GRR20124686Guilherme Henrique Stadler de Mello GRR20124678

Simone Matsubara GRR20124663

Curitiba, 25 de Agosto de 2017

Page 2: MEDIC˘AO DA QUALIDADE DO VINHO BRANCO NORTE …taconeli/CE22517/Grupo9.pdf · 2017. 8. 30. · 1 Introdu˘c~ao A partir de uma amostra de vinho branco do norte de Portugal, temos

Sumario

1 Introducao 2

2 Material e Metodos 22.1 Material . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22.2 Metodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

3 Selecao de variaveis 4

4 Analise de Diagnostico 54.1 Pressupostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

5 Conclusao 6

1

Page 3: MEDIC˘AO DA QUALIDADE DO VINHO BRANCO NORTE …taconeli/CE22517/Grupo9.pdf · 2017. 8. 30. · 1 Introdu˘c~ao A partir de uma amostra de vinho branco do norte de Portugal, temos

1 Introducao

A partir de uma amostra de vinho branco do norte de Portugal, temos o objetivo de modelar a qualidadedo vinho com base em testes fısico-quımicos. Devido a problemas de privacidade e logıstica, apenas as variaveisfisicoquımicas (entradas) e sensoriais (a saıda) estao disponıveis.

Para a validacao de qualidade do vinho portugues ”Vinho Verde”, foi realizado um estudo onde foi avaliadocada formula para criacao dos vinhos brancos, e se tentando alcancar a melhor formula para este determinadovinho.

2 Material e Metodos

2.1 Material

O estudo foi realizado com uma amostra de 4898 formulas quımicas diferentes de realizacao do vinho, e paracada uma delas foi dada uma pontuacao de qualidade entre 0 e 10. Inicialmente tivemos acesso a 10 variaveispossivelmente explicativas. Sao elas:

X1: Acidez fixaX2: Acidez volatilX3: Acido cıtricoX4: Acucar residualX5: CloretosX6: Dioxido de Enxofre livreX7: Dioxido de Enxofre totalX8: DensidadeX9: PHX10: Sulfatos

Tabela 1: Primeiras 6 observacoes do conjunto de dadosX1 X2 X3 X4 X5 X6 X7 X8 X9 X10

1 7.00 0.27 0.36 20.70 0.04 45.00 170.00 1.00 3.00 0.452 6.30 0.30 0.34 1.60 0.05 14.00 132.00 0.99 3.30 0.493 8.10 0.28 0.40 6.90 0.05 30.00 97.00 1.00 3.26 0.444 7.20 0.23 0.32 8.50 0.06 47.00 186.00 1.00 3.19 0.405 7.20 0.23 0.32 8.50 0.06 47.00 186.00 1.00 3.19 0.406 8.10 0.28 0.40 6.90 0.05 30.00 97.00 1.00 3.26 0.44

2

Page 4: MEDIC˘AO DA QUALIDADE DO VINHO BRANCO NORTE …taconeli/CE22517/Grupo9.pdf · 2017. 8. 30. · 1 Introdu˘c~ao A partir de uma amostra de vinho branco do norte de Portugal, temos

2.2 Metodos

Para conhecermos melhor os dados, apresentares algumas estatısticas. Assim podemos observar algumasmedidas.

## Y X1 X2 X3

## Min. :3.000 Min. : 3.800 Min. :0.0800 Min. :0.0000

## 1st Qu.:5.000 1st Qu.: 6.300 1st Qu.:0.2100 1st Qu.:0.2700

## Median :6.000 Median : 6.800 Median :0.2600 Median :0.3200

## Mean :5.878 Mean : 6.855 Mean :0.2782 Mean :0.3342

## 3rd Qu.:6.000 3rd Qu.: 7.300 3rd Qu.:0.3200 3rd Qu.:0.3900

## Max. :9.000 Max. :14.200 Max. :1.1000 Max. :1.6600

## X4 X5 X6 X7

## Min. : 0.600 Min. :0.00900 Min. : 2.00 Min. : 9.0

## 1st Qu.: 1.700 1st Qu.:0.03600 1st Qu.: 23.00 1st Qu.:108.0

## Median : 5.200 Median :0.04300 Median : 34.00 Median :134.0

## Mean : 6.391 Mean :0.04577 Mean : 35.31 Mean :138.4

## 3rd Qu.: 9.900 3rd Qu.:0.05000 3rd Qu.: 46.00 3rd Qu.:167.0

## Max. :65.800 Max. :0.34600 Max. :289.00 Max. :440.0

## X8 X9 X10

## Min. : 0.9871 Min. :2.720 Min. :0.2200

## 1st Qu.: 0.9917 1st Qu.:3.090 1st Qu.:0.4100

## Median : 0.9937 Median :3.180 Median :0.4700

## Mean : 1.5484 Mean :3.188 Mean :0.4898

## 3rd Qu.: 0.9961 3rd Qu.:3.280 3rd Qu.:0.5500

## Max. :103.8980 Max. :3.820 Max. :1.0800

##

## Call:

## lm(formula = Y ~ X1 + X2 + X3 + X4 + X5 + X6 + X7 + X8 + X9 +

## X10, data = da)

##

## Coefficients:

## (Intercept) X1 X2 X3 X4

## 6.4233802 -0.0796277 -1.2656173 0.1999516 -0.0028482

## X5 X6 X7 X8 X9

## -6.8574227 0.0070537 -0.0043765 0.0001663 0.2316432

## X10

## 0.4806588

## Analysis of Variance Table

##

## Response: Y

## Df Sum Sq Mean Sq F value Pr(>F)

## X1 1 49.6 49.623 71.6274 < 2.2e-16 ***

## X2 1 149.6 149.601 215.9399 < 2.2e-16 ***

## X3 1 0.1 0.089 0.1282 0.720372

## X4 1 21.4 21.427 30.9293 2.818e-08 ***

## X5 1 138.4 138.366 199.7237 < 2.2e-16 ***

## X6 1 1.9 1.898 2.7399 0.097932 .

## X7 1 73.1 73.099 105.5136 < 2.2e-16 ***

## X8 1 0.1 0.126 0.1812 0.670388

## X9 1 7.2 7.198 10.3904 0.001275 **

## X10 1 13.9 13.906 20.0728 7.625e-06 ***

## Residuals 4887 3385.7 0.693

## ---

## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

3

Page 5: MEDIC˘AO DA QUALIDADE DO VINHO BRANCO NORTE …taconeli/CE22517/Grupo9.pdf · 2017. 8. 30. · 1 Introdu˘c~ao A partir de uma amostra de vinho branco do norte de Portugal, temos

Dada as medidas descritivas acima observadas e considerando um alpha = 0.05, temos que as variaveis X3e X8 sao nao significativas.

3 Selecao de variaveis

Com isso, utilizaremos o metodo Forward, com escala zero, para escontrar as melhores variaveis a seremutilizadas com certa ordenacao. Juntamente, a ideia deste metodo e adicionar uma variavel de cada vez, sendoa primeira variavel selecionada aquela com maior correlacao com a resposta, ou seja, ajusta um modelo que seadequa bem aos dados utilizando o calculo do AIC. No nosso caso, o modelo que possui o menor AIC e o seguinte:

y= β0 +β1xAcidezfixa +β2xAcidezvolatil +β3xCloretos +β4xDioxidototal +β5xDioxidolivre +β6xPH +β7xSulfatos

Em seguida, fizemos novamente a analise de variancia, para testar se as todas as variaveis eram significativas.

anova(MOD2)

## Analysis of Variance Table

##

## Response: Y

## Df Sum Sq Mean Sq F value Pr(>F)

## X1 1 49.6 49.623 71.604 < 2.2e-16 ***

## X2 1 149.6 149.601 215.869 < 2.2e-16 ***

## X5 1 144.3 144.305 208.228 < 2.2e-16 ***

## X7 1 48.5 48.515 70.006 < 2.2e-16 ***

## X6 1 36.6 36.586 52.793 4.293e-13 ***

## X9 1 8.3 8.334 12.026 0.0005292 ***

## X10 1 15.2 15.179 21.902 2.946e-06 ***

## Residuals 4890 3388.8 0.693

## ---

## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

4

Page 6: MEDIC˘AO DA QUALIDADE DO VINHO BRANCO NORTE …taconeli/CE22517/Grupo9.pdf · 2017. 8. 30. · 1 Introdu˘c~ao A partir de uma amostra de vinho branco do norte de Portugal, temos

4 Analise de Diagnostico

4.1 Pressupostos

3 4 5 6 7

−4

−2

02

4

Fitted values

Res

idua

ls

Residuals vs Fitted

474616893266

−4 −2 0 2 4

−4

−2

02

4

Theoretical QuantilesS

tand

ardi

zed

resi

dual

s

Normal Q−Q

474616893266

3 4 5 6 7

0.0

0.5

1.0

1.5

2.0

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale−Location4746

16893266

0.00 0.01 0.02 0.03 0.04 0.05

−4

−2

02

4

Leverage

Sta

ndar

dize

d re

sidu

als

Cook's distance

Residuals vs Leverage

4746

1218

3308

Observamos que no grafico de analise de resıduos, os pontos estao pouco dispersos e com a linha de tendenciaconstante em torno de zero (Atencao para a escala). Pressupomos tambem que existe normalidade. E aplicandoo teste de Shapiro, confirmamos a normalidade, dado que o p-valor esta abaixo 0.05.

5

Page 7: MEDIC˘AO DA QUALIDADE DO VINHO BRANCO NORTE …taconeli/CE22517/Grupo9.pdf · 2017. 8. 30. · 1 Introdu˘c~ao A partir de uma amostra de vinho branco do norte de Portugal, temos

5 Conclusao

Este estudo mostra que as variaveis X3: Acido cıtrico, X4: Acucar residual e X8: Densidade, nao influ-enciaram na qualidade do vinho. As unicas variaveis significativas foram as implementadas no modelo. Nocomeco do estudo haviam muitas variaveis para se trabalhar, e se deixassemos um modelo com muitas haveriadificuldade em encontrar uma que realmente influenciasse, entao com a selecao feita, utilizando o metodo AIC,utilizamos apenas variaveis que eram significativas na Qualidade final do vinho.

6