CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A....

42
CE062c - GAMLSS Silva, J.P; Taconeli, C.A. 09 de outubro, 2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Transcript of CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A....

Page 1: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

CE062c - GAMLSS

Silva, J.P; Taconeli, C.A.

09 de outubro, 2018

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Page 2: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Por que GAMLSS?

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 2 / 42

Page 3: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Introdução

GAMLSS (Generalized aditive models for location, scale and shape) éuma recente metodologia de regressão (semi) paramétrica, quecontempla uma grande variedade de distribuições, e em que qualquerum de seus parâmetros pode ser modelado em função de covariáveis.

Permite modelar dados com dispersão não constante, diferentes níveisde assimetria e curtose, relações não lineares entre as variáveis. . .

O pacote gamlss e pacotes complementares permitem ajustar modelosda classe GAMLSS para diferentes tipos e estruturas de dados.

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 3 / 42

Page 4: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Introdução

Nesta aula vamos discutir alguns pontos da metodologia por meio deum exemplo referente aos preços de aluguel de imóveis em Munique,1980 (data set rent, pacote gamlss).

Adicionalmente, vamos explorar, de maneira preliminar, recursoscomputacionais implementados na biblioteca gamlss do R.

Vamos ajustar uma sequência de modelos com nível crescente decomplexidade, partindo de uma regressão linear e chegando a umGAMLSS.

Os slides apresentados na sequência são complementados com scriptsem R, disponíveis na página da disciplina.

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 4 / 42

Page 5: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Dados sobre preços de aluguel em Munique, 1980

A base de dados dispõe de informações de 1969 imóveis disponíveispara aluguel em nove variáveis, das quais cinco serão usadas na análise:

R: variável resposta, é o aluguel mensal em Marcos alemães menos ocusto utilitário, calculado ou estimado;

Fl: Área construída, em metros quadrados;

A: Ano de construção;

H: Fator com dois níveis, se o imóvel tem (0) ou não (1) aquecimentocentral;

loc: um fator que classifica a locação do imóvel como abaixo da média(1), na média (2) ou acima da média (3).

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 5 / 42

Page 6: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Análise exploratória

●●

●●

●●

●● ●

●●

●●●

●●

●●

●● ●

●●

●●

● ●

● ●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●●

●● ●●

●●

●● ●

● ●●

●●

●● ●●

●●● ●

●●

●●

●●

●● ●

●●

●●

●●

●●●●

●●

● ● ●●

● ●●

●●

●●

●●

●●

●●●

●●

●●

●●●

● ●

●●

●●

●●

●●●

●●

●●●

●●

● ●●

●●

●●

●●

●●

● ●

●●

●●

● ●●

●●

● ●

●●

●●●●

●●

●● ●

●●

●●

●●

●●

●●

●●

● ●

● ●

● ●

● ●

●●●●

●●

●●

●● ●

● ●●

●●●

●● ●●●

●●

●●

● ●●

●●

●●●●

●●

●●●

● ●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●●● ●●

●●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

●●

●● ●●

●●

●● ●

●●

●●

●●

●●●

●●●

●● ●●●●

●●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

● ● ●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●

●●

●● ●

●●●

●●

● ●●

●●

●●

●●

●●

● ●

●●

●●

●●●

●● ●●

● ●

● ●

●●

● ●

●●

●●

●●●●

●●

● ●●

●●

●● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●● ●

●●

●●

●●●

● ●

●●

●●

● ●

●●

●●

● ●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

● ● ●●

●●

●●

●●

●●●

●●●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●●●●

● ●

●●

●●

●● ●●

●●●

● ●

●●

●●

● ●

● ●●

●●

●●

●●

●●

●●●

●●

●●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●●

● ●

●●

● ●

●●●

●●●

●●

●●

●● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

● ●

●●

●●

●●

●●

●●

● ●

● ●

● ●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●● ●

●●

●●●

●●

●●

●●

●●

●●

●●●

● ●

●●

●●

●●

●●●●

●●

●●

●●

●●

●●

● ●●●●

●●

●●●

●●

●●

●●

●●

●●

●● ●

●● ●

● ●●●●

●●

●●

●●

●●●

●●●●

● ●

●●

● ●

●●

●●●

●●●

●●

● ●

●●

●●●●

●●●

●●

●●

●●

●●

● ●

●●

●●

●●

● ●●

● ●

●●

●●

●●

●●

●●

●●

●● ●

●●●

●●

●●

●●●

● ●

●●

● ●

●●

●●

●●●

●●

●●

● ●●

●●●●

●●

●●●

●●

●●

●● ●

●●● ●

●●

● ●

●●

●● ●●

● ●●●●

●●

●●●

●●

●●

● ●

●●

●●

●● ●

40 60 80 100 120

0

500

1000

1500

2000

2500

3000

Fl

R

●●

●●

●●

●●●

●●

●●●

●●

●●●● ●

●●

●●

●●

● ●

●●

●●

●●

●●●●

●●

●●

●●●

●●●

●●●●

●●

●●●●●

●●

●●

●●●●

●●● ●

●●

●●

● ●

●●●

●●●

●●

●●

●●●●

●●

●●●●

●●●

●●●●

●●

●●

●●●

●●

●●

●●●

●●

●●

●●

●●

● ●●

●●

●●●

●●

●●●

● ●

●●

●●

●●

●●

●●

●●

● ●●

●●● ●

●●●● ●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

● ●

●●●●

●●

●●

●●●

●●●●

● ●●

●●●●●

● ●

●●

● ●●

●●

● ●●●

●●

●●

●●

●●

●●

●●●

●●

● ●

●●

●●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●●● ● ●

●●●

●●

●●

●●

●●

●●

● ●

● ●

●●● ●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●●

●●

●●●●●

●●

●●

●●●

●●●

●● ● ●●●

●●●

●●

●●

●●

●●●

●●

●● ●

●●

●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●●

●●●

●●

●● ●

●●

●●

●●●●

●●

● ●

●●

●●●

●●● ●

●●

● ●

●●

●●

●●●

●●

●●●●

●●

●●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●●●

●●

●●

●●●

● ●

●●

●●

●●

●●

●●● ●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●

● ●

●●●

●●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●● ●●

●●

●●

● ●

●● ●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●●

● ●

●●

●●

●●

●●

● ●

●●

●●

● ●

●●●

●●

●●●

●●

●●

● ●

●●●

●●●

●●

●●●●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●●

●●●

●●

●●

● ●

●●

●●●

● ●

●●●

● ●

●●

●●

●●

●●

●●●

●●

●●

● ●

●●

●●●●

●●

●●

●●●●●

●●

●●●●●

●●

●●●

●●

●●● ●

●●

●●

●●●

●●●

●● ●● ●

●●

●●

●●

●●

●●●●

●●

●●

● ●

●●

●●●

●●●

●●

●●

●●

●●●●

●●●

●●

●●●●

●●●

●●

●●

●●

●●

● ●●

● ●

●●●

●●

●●

●●

●●

●●

●●●

●●●●

●●

●●

●●●

●●

●●●●

● ●

●●

●●●

●●

●●

●●●

●●●●

●●

●●●

●●

●●

●●●

●●●●

●●

●●

●●

●●●●

●●●●●

●●

●●●

●●

●●

● ●

● ●

●●

●● ●

1900 1920 1940 1960 1980

0

500

1000

1500

2000

2500

3000

A

R

●●●

●●

●●

●●●

●●

●●

●●●

●●●●●

0 1

0

500

1000

1500

2000

2500

3000

H

R

●●

●●

●●

●●●

●●

●●●

1 2 3

0

500

1000

1500

2000

2500

3000

loc

R

Figura 1: Gráficos para o valor de aluguel (R) vs variáveis explicativas.

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 6 / 42

Page 7: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Por que GAMLSS?

Complexidade da relação entre a variável resposta e as variáveisexplicativas;

A variância dos valores de aluguel não é constante para diferentesvalores das variáveis explicativas;

Distribuição dos valores de aluguel é assimétrica, e o nível deassimetria parece variar conforme os valores das variáveis explicativas.

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 7 / 42

Page 8: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelo de regressão linear

O primeiro modelo a ser ajustado é o de regressão linear, considerandoresposta com distribuição Normal.

Considere y a variável resposta e x1, x2, ..., xr um conjunto de rcovariáveis avaliados em uma amostra de tamanho n.

O modelo de regressão linear fica definido, para uma amostra detamanho n, por:

yi = β0 + β1xi1 + ...+ βr xir + εi ,

com εiind∼ N(0, σ2), para i = 1, 2, ..., n.

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 8 / 42

Page 9: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelo de regressão linear

O modelo de regressão linear pode ser representado na forma matricialpor:

y = Xβ + ε,

onde y = (y1, ..., yn)′ é o vetor de respostas, X é a matriz do modelo n × p(p = r + 1), β = (β0, β1, ..., βr )′ é o vetor de parâmetros de regressão eε = (ε1, ε2, ..., εn)′ o vetor de erros.

Uma forma equivalente (e mais flexível) de representar o modelo deregressão linear é a seguinte:

y |x ind∼ N(µx , σ2),

onde µx = β0 + β1x1 + ...+ βr xr .

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 9 / 42

Page 10: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelo de regressão linear

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

1.2

x

y

Figura 2: Ilustração de modelo de regressão linear com uma covariável.

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 10 / 42

Page 11: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelo de regressão linear

O método de mínimos quadrados é usualmente aplicado na estimaçãodos parâmetros do modelo (β′s);

O estimador de mínimos quadrados de β é o vetor β̂ que minimiza asoma de quadrados dos erros, dada por:

SQE (β) = (y − Xβ)′(y − Xβ).

O vetor β̂ pode ser obtido de forma analítica, resultando em:

β̂ = (X ′X)−1X ′y .

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 11 / 42

Page 12: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelo de regressão linear

Sob a especificação do modelo de regressão linear, o estimador demínimos quadrados é também o estimador de máxima verossimilhançade β.

O estimador de máxima verossimilhança de σ2 é dado por:

σ̂2 = SQResn = (y − Xβ̂)′(y − Xβ̂)

n ,

sendo viciado para σ2. Um estimador não viciado de σ2 é dado por:

s2 = SQResn − p = (y − Xβ̂)′(y − Xβ̂)

n − p .

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 12 / 42

Page 13: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelo de regressão linear

Voltando à análise dos dados de aluguéis de imóveis, o seguinte modelode regressão linear é proposto:

y |x ∼ Normal(µx , σ2),

em que

µx =β0 + β1 × Fl + β2 × A + β3 × I(H = 1)+ β4 × I(loc = 2) + β5 × I(loc = 3),

sendo I(·) é a função indicadora, tal que I(H = 1) = 1 para os imóveis semaquecimento central (H = 1) e I(H = 1) = 0 para os imóveis comaquecimento central (H=0).

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 13 / 42

Page 14: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelo de regressão linear

A equação do modelo de regressão linear ajustado é a seguinte:

µ̂x =− 2775.04 + 8.84× Fl + 1.48× A− 204.76× I(H = 1)+ 134.05× I(loc = 2) + 209.58× I(loc = 3).

Além disso:

log(σ̂) = 5.73165,

tal que σ̂ = 308.48.

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 14 / 42

Page 15: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelo linear generalizado

Modelos lineares generalizados configuram extensões dos modelos deregressão linear, apresentando como diferenciais:

Permitem modelar respostas com distribuição pertencente à famíliaexponencial;

A relação entre a média de y e as covariáveis é determinada por umafunção de ligação monotônica g(·);

A estimação dos parâmetros do modelo se dá por um algoritmo demínimos quadrados ponderados iterativamente.

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 15 / 42

Page 16: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelo linear generalizado

Uma variável aleatória y tem distribuição pertencente à famíliaexponencial se sua função (densidade) de probabilidade tiver a seguinteforma:

f (y ;µ, φ) = exp{yθ − b(θ)

φ+ c(y , φ)

},

em que θ e φ são os parâmetros canônico e de dispersão, respectivamente.

A média e a variância de y são dadas, repsectivamente, porE (y) = b′(θ) e Var(y) = φV (µ), onde V (µ) = b′′[θ(µ)] é a chamadafunção de variância.

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 16 / 42

Page 17: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelo linear generalizado

Dentre as principais distribuições contempladas pela teoria de MLGestão a normal (V (µ) = 1), binomial (V (µ) = µ(1− µ)), Poisson(V (µ) = µ), Gamma (V (µ) = µ2) e normal inversa (V (µ) = µ3).

Um modelo linear generalizado pode ser representado, genericamente,da seguinte forma:

y |x ind∼ ε(µx , φ),

em que ε denota uma particular distribuição da família exponencial, φ é umparâmetro de dispersão e

g(µx) = β0 + β1x1 + ...+ βr xr .

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 17 / 42

Page 18: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelo linear generalizado

Na aplicação dos dados sobre os valores de aluguel de imóveis, vamosconsiderar a distribuição Gamma, que é uma alternativa para amodelagem de dados contínuos assimétricos.

Uma variável aleatória com distribuição Gamma de média µ eparâmetro de dispersão φ tem a função densidade de probabilidadedada por:

f (y ;µ, φ) =y

1φ−1exp

(− yφµ

)(φµ)1/φ Γ(1/φ)

, y > 0, µ > 0, φ > 0.

No pacote gamlss a distribuição Gamma é parametrizada peloparâmetro de escala σ =

√φ.

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 18 / 42

Page 19: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelo linear generalizado

Como µ > 0, uma escolha adequada para o modelo é a função deligação logarítmica, de forma que o modelo a ser ajustado ficaespecificado por:

y |x ind∼ Gamma(µx , σ), y > 0, µ > 0, σ > 0,

com

log(µx) =β0 + β1 × Fl + β2 × A + β3 × I(H = 1)+ β4 × I(loc = 2) + β5 × I(loc = 3).

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 19 / 42

Page 20: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelo linear generalizado

−0.5 0.0 0.5 1.0 1.5 2.0

2

4

6

8

x

y

Figura 3: Ilustração de modelo de regressão Gamma com função de ligaçãoexponencial.

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 20 / 42

Page 21: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelo linear generalizado

O ajuste do modelo linear generalizado com resposta Gamma resultaem y |x ∼ Gamma(µ̂x , σ̂), tal que:

log(µ̂x) =2.8649 + 0.0106× Fl + 0.0015× A− 0.3001× I(H = 1)+ 0.1907× I(loc = 2) + 0.2641× I(loc = 3),

com

log(σ̂) = −0.9822,

tal que σ̂ = 0.3745.

Informações mais detalhadas sobre o ajuste encontram-se no scriptdisponível na página da disciplina.

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 21 / 42

Page 22: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelo generalizado aditivo

Modelos generalizados aditivos configuram extensões dos MLGs emque o efeito de ao menos uma das covariáveis é incorporado ao preditorlinear através de uma função suave, sem parâmetros associados.

Um modelo generalizado aditivo pode ser representado, de forma geral,por:

y |x ind∼ ε(µx , φ),onde

g(µx) = β0 + β1x1 + ...+ βjxj + ...+ sj+1(xj+1) + ...+ sr (xr ),

em que sk é uma função suave não paramétrica aplicada à covariável xk ,k = j + 1, ..., r .

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 22 / 42

Page 23: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelo generalizado aditivo

−0.5 0.0 0.5 1.0 1.5 2.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

x

y

Figura 4: Ilustração de modelo de regressão Gamma com função suave para amédia.

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 23 / 42

Page 24: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelo generalizado aditivo

Modelos aditivos são mais flexíveis do que modelos totalmenteparamétricos.

Os efeitos das covariáveis inseridas ao preditor por meio de funçõessuaves podem ser interpretados usando gráficos apropriados;

O pacote gamlss oferece diferentes alternativas de funções suaves aserem usadas em modelos aditivos, que serão abordadasposteriormente.

Na aplicação referente aos preços de aluguel vamos considerar ainclusão de efeitos aditivos (não paramétricos) para a área e o ano deconstrução do imóvel.

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 24 / 42

Page 25: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelo generalizado aditivo

O modelo generalizado aditivo a ser ajustado aos dados de preços dealuguel, considerando resposta Gamma, é especificado da seguinteforma:

y |x ind∼ Gamma(µx , σ), y > 0, µ > 0, σ > 0,

com

log(µx) =β0 + s1(Fl) + s2(A) + β1 × I(H = 1)+ β2 × I(loc = 2) + β3 × I(loc = 3),

em que s1 e s2 são suavizadores não paramétricos aplicados às variáveis Fl eA, respectivamente.

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 25 / 42

Page 26: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelo generalizado aditivo

O modelo ajustado fica dado por:

log(µ̂x) =3.0851 + s1(Fl) + s2(A)− 0.3008× I(H = 1)+ 0.1887× I(loc = 2) + 0.2720× I(loc = 3),

com

log(σ̂) = −1.0019,

tal que σ̂ = 0.33672.

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 26 / 42

Page 27: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelagem do parâmetro de escala

Até o momento consideramos apenas modelos em que a média(parâmetro de locação) da distribuição varia conforme os valores dascovariáveis;

Modelos mais gerais permitem incluir covariáveis também namodelagem de outros parâmetros da distribuição (por exemplo, para oparâmetro de escala).

Para a distribuição Gamma, por exemplo, temos que Var(y) = σ2µ2,ou seja, σ =

√Var(y)/µ é o coeficiente de variação de y .

Podemos modelar σ em função de covariáveis, permitindo avaliar se ocoeficiente de variação muda conforme os valores de alguma (oualgumas) delas.

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 27 / 42

Page 28: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelagem do parâmetro de escala

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

x

y

Figura 5: Ilustração - distribuição normal com média e variância dependentes de x .

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 28 / 42

Page 29: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelagem do parâmetro de escala

Uma formulação geral para o modelo, neste caso, seria da seguinteforma:

y |x ind∼ D(µx , σx),onde

g1(µx) = β10 + β11x1 + ...+ β1j1xj1 + ...+ sj1+1(xj1+1) + ...+ sr1(xr1)g2(σx) = β20 + β21x1 + ...+ β2j2xj2 + ...+ sj2+1(xj2+1) + ...+ sr2(xr2),

em que D representa alguma distribuição com dois parâmetros (µ e σ), quesão funções de covariáveis inseridas por meio de termos paramétricos ounão paramétricos.

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 29 / 42

Page 30: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelagem do parâmetro de escala

Neste contexto, vamos retomar a análise dos dados de preços dealuguel com o ajuste de modelos com resposta Gamma e normalinversa, inserindo covariáveis também na modelagem do parâmetro deescala.

Em ambos os casos vamos considerar função de ligação logarítmicatanto para µ quanto para σ, produzindo os seguintes modelos:

log(µx) =β10 + s11(Fl) + s12(A) + β11 × I(H = 1)+ β12 × I(loc = 2) + β13 × I(loc = 3),

e

log(σx) =β20 + s21(Fl) + s22(A) + β21 × I(H = 1)+ β22 × I(loc = 2) + β23 × I(loc = 3).

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 30 / 42

Page 31: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelagem do parâmetro de escala

O modelo ajustado com resposta Gamma (que produziu menor AIC doque com resposta normal inversa) produziu os seguintes resultados:

log(µ̂x) =2.8844 + s11(Fl) + s12(A)− 0.2918× I(H = 1)+ 0.1938× I(loc = 2) + 0.2734× I(loc = 3),

com

log(σ̂x) =5.9225 + s21(Fl) + s22(A) + 0.0659× I(H = 1)− 0.1166× I(loc = 2)− 0.1702× I(loc = 3).

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 31 / 42

Page 32: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelos generalizados aditivos para locação, escalae forma

Os modelos considerados anteriormente baseiam-se em distribuiçõescom dois parâmetros, permitindo modelar locação (média) e escala(dispersão) da distribução da variável em função de covariáveis.

A metodologia GAMLSS contempla distribuições de probabilidade comaté quatro parâmetros, permitindo modelar outros parâmetros dadistribuição, associados, por exemplo, à assimetria e curtose.

Desta forma, dispõe-se de uma ampla variedade de modelos, flexíveis eúteis para a análise de dados com distribuições de diferentes formas.

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 32 / 42

Page 33: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelos generalizados aditivos para locação, escalae forma

6 8 10 12 14 16 18

0

5

10

15

20

25

x

y

Figura 6: Ilustração - distribuição com locação, dispersão e forma dependentes dex .

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 33 / 42

Page 34: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelos generalizados aditivos para locação, escalae forma

Um modelo generalizado aditivo para locação, escala e forma pode serdefinido, de forma geral, por:

y |x ind∼ D(µx , σx , νx , τx),onde

g1(µx) = β10 + β11x1 + ...+ β1j1xj1 + ...+ sj1+1(xj1+1) + ...+ sr1(xr1)g2(σx) = β20 + β21x1 + ...+ β2j2xj2 + ...+ sj2+1(xj2+1) + ...+ sr2(xr2)g3(νx) = β30 + β31x1 + ...+ β3j3xj3 + ...+ sj3+1(xj3+1) + ...+ sr3(xr3)g4(τx) = β40 + β41x1 + ...+ β4j4xj4 + ...+ sj4+1(xj4+1) + ...+ sr4(xr4)

,

em que D(µ, σ, ν, τ) é uma distribuição de quatro parâmetros e ν e τ sãoparâmetros de forma.

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 34 / 42

Page 35: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelos generalizados aditivos para locação, escalae forma - Distribuições

O pacote gamlss dispõe de aproximadamente 100 distribuiçõesimplementadas. Além disso:

É possível ao usuário implementar novas distribuições;Versões truncadas ou censuradas podem ser definidas a partir dasdistribuições originais;Pode-se criar novas distribuições a partir de misturas das distribuiçõesoriginais;Distribuições discretas podem ser criadas a partir de distribuiçõesoriginalmente contínuas;Distribuições com suporte nos intervalos (0,∞) ou (0, 1) podem sercriadas a partir de variáveis com suporte no intervalo (−∞,∞).

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 35 / 42

Page 36: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelos generalizados aditivos para locação, escalae forma - Termos aditivos

Termos aditivos podem ser adicionados ao modelo de diferentes foras,usando, por exemplo:

Penalized B-splines (P-splines);Monotone P-splines;Cycle P-splines;Varying coefficient P-splynes;Cubic smoothing P-splynes;Loess curve fitting;Fractional polynomials;Random effects;Ridge regression;Nonlinear parametric fits.

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 36 / 42

Page 37: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelos generalizados aditivos para locação, escalae forma - Estimação

Quando o modelo especificado contém apenas termos paramétricos, ométodo da máxima verossimilhança é aplicado na estimação dosparâmetros;

Em situações mais gerais (ex: para modelos incluindo suavizadores) ométodo da máxima verossimilhança penalizada é aplicado;

O pacote gamlss dispõe de dois algoritmos distintos para o ajuste dosmodelos: CG (Cole e Green) e RS (Rigby e Stasinopoulos), que podemainda ser usados de forma combinada.

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 37 / 42

Page 38: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelos generalizados aditivos para locação, escalae forma - Aplicação

Dando sequência à análise dos dados de preços de aluguel, vamosconsiderar, como alternativa à distribuição Gamma, a distribuiçãoBox-Cox Cole e Green (BCCGo);

A distribuição BCCGo tem três parâmetros (µ, σ e τ), sendo τ oparâmetro de forma da distribuição;

Cada um dos parâmetros pode ou não ser modelado em função decovariáveis. Além disso, diferentes conjuntos de covariáveis podem serincluídos para cada parâmetro;

Modelos com diferentes especificações (distribuições, termos aditivos,covariáveis. . . ) podem ter seus ajustes comparados usando o critériode informação de Akaike (AIC) ou Akaike generalizado (GAIC), dentreoutros.

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 38 / 42

Page 39: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelos generalizados aditivos para locação, escalae forma - Aplicação

No modelo especificado para a análise dos dados, todas as covariáveisforam incluídas na modelagem dos três parâmetros (µ, σ e ν).

Como funções de ligação para cada parâmetro adotou-se o default dopacote gamlss para a distribuição BCCGo (log, log e identidade,respectivamente);

Novamente, funções suaves foram consideradas para as variáveis Fl eA.

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 39 / 42

Page 40: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelos generalizados aditivos para locação, escalae forma - Aplicação

Dessa forma, o seguinte modelo foi proposto:

y |x ind∼ BCCGo(µx , σx , νx),

onde

log(µx) =β10 + s11(Fl) + s12(A) + β11 × I(H = 1)+ β12 × I(loc = 2) + β13 × I(loc = 3),

log(σx) =β20 + s21(Fl) + s22(A) + β21 × I(H = 1)+ β22 × I(loc = 2) + β23 × I(loc = 3),

νx =β30 + s31(Fl) + s32(A) + β31 × I(H = 1)+ β32 × I(loc = 2) + β33 × I(loc = 3).

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 40 / 42

Page 41: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelos generalizados aditivos para locação, escalae forma - Aplicação

Como resultado temos o seguinte modelo ajustado:

log(µ̂x) =2.0285 + s11(Fl) + s12(A)− 0.3213× I(H = 1)+ 0.1853× I(loc = 2) + 0.2742× I(loc = 3),

log(σ̂x) =6.6534 + s21(Fl) + s22(A) + 0.0819× I(H = 1)− 0.0851× I(loc = 2)− 0.1410× I(loc = 3),

ν̂x =− 3.1601 + s31(Fl) + s32(A)− 0.2866× I(H = 1)− 0.1711× I(loc = 2)− 0.0845× I(loc = 3).

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 41 / 42

Page 42: CE062c - GAMLSS - UFPRtaconeli/CE06218/Aula1p2.pdf · CE062c - GAMLSS Silva,J.P;Taconeli,C.A. 09deoutubro,2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42

Modelos generalizados aditivos para locação, escalae forma - Resumo

Algumas propriedades dos GAMLSS:GAMLSS configura uma metodologia flexível para modelos de regressão;

Permite assumir diversas distribuições de probabilidades para a variávelresposta;

Todos os parâmetros da distribuição podem ser modelados em função decovariáveis;

Diferentes tipos de termos aditivos podem ser incluídos nos preditores decada parâmetro;

GAMLSS estende diversas outras metodologias (como LM, GLM eGAM) permitindo modelar dados com super dispersão, excesso de zeros,diferentes níveis de assimetria e curtose. . .

Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 42 / 42