Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2....

Uma introdução aos modelos uni e multivariados de classificação e regressão por árvores

Cesar Augusto Taconeli Departamento de Estatística - UFPR

Sumário

1. Árvores de Classificação e Regressão 1.1 Atrativos1.2 Terminologia1.3 Construção do modelo

1.3.1 Definição e execução de um critério de partição1.3.2 Procedimento de poda1.3.3 Seleção do modelo1.3.4 Caracterização dos nós finais

1.4 Exemplo2. Árvores de Regressão multivariadas3. Conclusão4. Referências

1. Árvores de Classificação e Regressão - CART)

� Principal referência: Breiman et al (1984);

� Modelagem não paramétrica;

� Execução de sucessivas partições binárias de uma amostra, buscando a constituição de sub-amostras menos heterogêneas.

� Variável dependente:� Numérica – Árvore de Regressão� Categórica – Árvore de Classificação

1. Árvores de Classificação e Regressão - CART)

� Alternativa ou complemento a procedimentos estatísticos de classificação e regressão como:

� Regressão linear múltipla;

� Regressão logística;

� Análise de sobrevivência;

� Análise discriminante;

� Análise de agrupamentos, dentre outros.

1.1 Atrativos

� Procedimento de simples aplicação;

� Possibilidade de modelar dados com estruturas complexas:

� Dados desbalanceados;� Dados faltantes;� Grande número de variáveis independentes.

� Detecção de interações de ordens elevadas;

� Ausência de pressuposições paramétricas;

� Produção de resultados facilmente interpretáveis.

1.2 Representação

Nó

inicial

Ramo

Ramo

Nó

Interm.

Nó final

Nó final

Nó final

Figura 1 – Ilustração de uma árvore de regressão/classificação

1.3 Construção das árvores

� Definição e execução de um critério de partição;

� Poda;

� Seleção do modelo;

� Caracterização dos nós finais.

1.3.1 Definição e execução de um critério de partição

As partições devem ser realizadas com base nos resultados das

co-variáveis.

� Seja { }, , 1,2,...,j j

Y j n=X observações de uma variável dependente Y

e de um vetor p-dimensional de variáveis independentes X .

Deve-se partir a amostra original em duas, agrupando

observações de acordo com respostas a questões do tipo:


� Para covariáveis numéricas: “ τ≤ijX ?"

� ijX : valor da ésimai − variável no elemento j ; � τ : qualquer valor amostrado ésimai − variável.

� Para covariáveis categorizadas: “ Axij ∈ ?"

� A : qualquer categoria (ou subconjunto de categorias) de iX .


� Questão: Qual das possíveis partições deve ser executada?

� Aquela que melhor explicar a variação da resposta, constituindo sub-amostras pouco heterogêneas.

� Quantifica-se a heterogeneidade das sub-amostras constituídas por meio de alguma medida de impureza.


� Medidas de impureza

� Para árvores de classificação: índice de entropia.

Considere um nó t qualquer. Dispõe-se, por exemplo,

da seguinte medida de impureza:

( ) ( )( )( ) | log |k

t p k t p k tφ = −∑

( )tkp | : proporção de observações pertencentes ao nó t e

à classe k.


� Medidas de impureza

� Para árvores de regressão: índice ANOVA.

( ) ( ){ }∑ −=i

tytjyt2

|)(φ

( )tjy | : observação j em t ;

( )ty : média das observações no nó t .


� Variação da impureza

Considere um nó t dividido em dois novos nós, Lt e Rt

baseado em uma partição s . A redução da impureza

produzida pela partição é calculada como:

( ) ( ) ( ) ( )R

RL

L tn

nt

n

ntts φφφφ −−=∆ ,

� Executa-se s que maxim iza ( )ts,φ∆ . � Procede-se igualmente em relação às sub-

amostras até a constituição de uma árvore com reduzido número de observações em cada nó final

1.3.2 Poda

� Objetivo: Eliminar da árvore partições que pouco contribuem para a explicação da variável resposta.

� Método: Baseado nos valores de uma função de custo-complexidade:

1.3.2 Poda

� Baseada na seguinte função de custo-complexidade:

( ) ( ) TTRTR~

αα +=

( ) ( )t T

R T tφ∈

= ∑�

: custo associado à taxa de má-classificação da árvore;

T~: número de nós finais da árvore;

0≥α : parâmetro de complexidade.

� Aumentando o valor de α a partir de zero obtém-se uma seqüência aninhada de árvores de tamanho decrescente, cada uma ótima para seu tamanho.

1.3.3 Seleção do modelo

� Construção de um gráfico de custo-complexidade, representando as árvores da seqüência aninhada com custos estimados por validação cruzada;

� Seleção da árvore pela regra do desvio padrão (1-se rule – Breiman et al, 1984).

1.3.3 Seleção do modelo

T am anho d a árvo re

Cu

sto

de

má

-cla

ssifi

ca

çã

o

1 S E

V alid aç ão c ruzad aR e -s ub s tituiç ão

Figura 2 - Curva de custo complexidade.

1.3.4 Caracterização dos nós finais

� Árvores de classificação: por meio das proporções de ocorrências de cada uma das classes;

� Árvores de regressão: com a média das observações que formam o nó.

� Predição: Realizada conduzindo cada nova observação pela árvore e inferindo o valor da resposta de acordo com o valor característico do nó final ao qual foi alocada.

1.4 Exemplo

� Dados: Distribuição de 12 espécies de aranhas caçadoras capturadas em armadilhas em dunas holandesas (Van de Art e Smeeck Enserinck, 1975). Foram amostradas 28 locações.

� Variáveis respostas:

� Abundâncias – tomadas as raízes quadrada

1.4 Exemplo

� Variáveis ambientais:

� Mseca: logaritmo da porcentagem de matéria seca no solo;

� Areia: logaritmo da porcentagem de cobertura com areia;

� Galhos: logaritmo da porcentagem de cobertura com galhos e folhas;

� Musgos: logaritmo da porcentagem de cobertura com musgos;

� Capim: logaritmo da porcentagem de cobertura com capim;

� Ref: reflexão da superfície do solo com o céu encoberto.

� Nota: Amplitude das variáveis ambientais divididas em 10 classes, correspondentes aos valores inteiros entre zero e nove.

1.4 Exemplo

Arcttosa lutetiana Pardosa lugubris Zora spinimana Pardosa nigriceps

Pardosa pullata Aulonia albimana Trochosa terricola Alopecosa cuneata

Pardosa monticola Alopecosa accentuata Alopecosa fabrilis Arctosa perita

Figura 2 – Aranhas caçadoras

1.4 Exemplo

Espécie: A lopecosa accentuata

c p

X-v

al R

ela

tive

Err

or

0.2

0.4

0.6

0.8

1.0

1.2

1.4

In f 0 .3 0 .1 2 0 .0 4 0 .0 1 3

1 2 3 4 5

S i z e o f tre e

M i n + 1 S E

Figura 3 – G ráfico de custo-com plexidade

1.4 Exemplo

ref< 7.5

ref< 4 capim< 5.5

ref>=7.5

ref>=4 capim>=5.5

0n=11

1.3333n=6 1.75

n=43.8571

n=7

Figura 4 – Árvore de regressão para Alopecosa accentuata

1.4 Exemplo

Figura 5 – Partições

1.4 Exemplo

capim< 6.5

musgos< 4.5 musgos< 6

capim>=6.5

musgos>=4.5 musgos>=6

0.21602n=9

2.2891n=8

3.0834n=8

8.403n=3

Figura 6 – Árvore de regressão para Pardosa monticola

1.4 Exemplo

capim< 8.5

ref>=6

capim>=8.5

ref< 6

1.0789n=10

4.7329n=10

8.5003n=8

Figura 7 – Árvore de regressão para Trochosa terricola

1.4 Exemplo

galhos< 8

mseca>=7.5

galhos>=8

mseca< 7.50.44418

n=20

2.0075n=5

4.6915n=3

Figura 8 – Árvore de regressão para Pardosa lugubris

1.4 Exemplo

arct.lute

0 2 4 6 0 2 4 6 8 0 1 2 3 4 5

0.0

2.0

04 pard.lugu

zora.spin

02

4

04

8

pard.nigr

pard.pull

04

8

0.0 1.0 2.0 3.0

02

4

0 1 2 3 4 5 0 2 4 6 8

aulo.albi

Figura 9 – Gráficos de dispersão

1.4 Exemplo

� Problemas:

� Elevado número de espécies;

� Correlação entre abundâncias das diferentes espécies.

� Solução:

� Análise multivariada

2. Árvores de Regressão multivariadas (De Ath, 2002)

� Estudo da relação espécies/ambiente através da construção de árvores de regressão multivariadas.

� Objetivos :� Detectar quais fatores ambientais (ou combinações

dos mesmos) são responsáveis pela distribuição espacial das 12 espécies de aranhas caçadoras.

� Identificar e analisar a co-existência ou predominância de determinadas espécies em locações com diferentes características.

2. Árvores de Regressão multivariadas

Tabela 2 - Alternativas de medidas de impureza (construção da árvore) e

de erro de predição (poda):

Descrição Impureza Erro de predição

Soma multivariada dos

quadrados dos desvios

em relação à média.

( )∑ −ji

jij yy,

2

( )∑ −∗

j

jyy2

Soma multivariada dos

desvios absolutos em

relação à mediana.

∑ −ji

jij yy,

~ ∑ −∗

j

jyy ~

Medidas de distância ∑> kki

ikd,

2

∑∑>

∗

−kki

ik

i

i

n

d

n

d

,2

22


cp

X-v

al

Re

lati

ve

Err

or

0.2

0.4

0.6

0.8

1.0

1.2

Inf 0.27 0.1 0.059 0.041 0.035 0.026 0.014

1 2 3 4 5 6 7 8

Size of tree

M in + 1 SE

Figura 10 – Gráfico de complexidade para a árvore de regressão multivariada

2. Árvores de Regressão multivariadasherbs< 8.5

twigs< 3.5

herbs>=8.5

twigs>=3.5

195 : n=11 116 : n=9

167 : n=8

arct.lute

pard.lugu

zora.spin

pard.nigr

pard.pull

aulo.albi

troc.terr

alop.cune

pard.mont

alop.acce

alop.fabr

arct.peri

Error : 0.336 CV Error : 0.425 SE : 0.0717

Figura 11 – Árvore de regressão multivariada


� Biplots (Gabriel, 1971)

� Gráfico bi-dimensional representando uma matriz de dados, com um ponto para cada uma das nobservações e um vetor para cada uma das pvariáveis

� A disposição dos pontos e vetores nos diferentes quadrantes do gráfico representa as correlações entre as variáveis e as observações.


Dim 1 82.07 % : [ 0.927 ]

D

im

2

17

.93

% :

[ 0

.85

4 ] arct.lute

pard.lugu

zora.spin

pard.nigr

pard.pull

aulo.albi

troc.terr

alop.cune

pard.mont

alop.acce

alop.fabr

arct.peri

Figura 12 – Tree biplot

3. Conclusão

� CART

� Alternativa não paramétrica a diversos procedimentos estatísticos;

� Flexibilidade e simplicidade da técnica;

� Extensão multivariada: análise conjunta de duas ou mais variáveis respostas;

� Identificação de fatores ambientais associados à abundância de espécies de aranhas caçadoras.

4. Referências� BREIMAN, L., J.H. FRIEDMAN, R.A. OLSHEN, AND C.G.

STONE. (1984), Classification and regression trees. Wadsworth International Group, California, 358p, 1984.

� DE’ATH, G. Multivariate Regression Trees: A New Technique for Modeling Species-Environment Relationships. Ecology, 83, 4, 1105–1117, 2002.

� GABRIEL, K. R. The biplot graphical display of matrices withapplication to principal component analysis. Biometrika,58, 453–467,1971.

� VAN DE ART, P.J., N. SMEECK ENSERINCK. Correlations between distributions of hunting spiders (Lycosidae, Ctenidae) and environmental characteristics in a dune área. Netherlands Journal of Zoology, 25,1-45, 1975.

Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2....

Documents

Transcript of Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2....