Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2....
Transcript of Uma introdução aos modelos uni e multivariados de ...apresentacao-cesar01.pdf · 1.4 Exemplo 2....
Uma introdução aos modelos uni e multivariados de classificação e regressão por árvores
Cesar Augusto Taconeli Departamento de Estatística - UFPR
Sumário
1. Árvores de Classificação e Regressão 1.1 Atrativos1.2 Terminologia1.3 Construção do modelo
1.3.1 Definição e execução de um critério de partição1.3.2 Procedimento de poda1.3.3 Seleção do modelo1.3.4 Caracterização dos nós finais
1.4 Exemplo2. Árvores de Regressão multivariadas3. Conclusão4. Referências
1. Árvores de Classificação e Regressão - CART)
� Principal referência: Breiman et al (1984);
� Modelagem não paramétrica;
� Execução de sucessivas partições binárias de uma amostra, buscando a constituição de sub-amostras menos heterogêneas.
� Variável dependente:� Numérica – Árvore de Regressão� Categórica – Árvore de Classificação
1. Árvores de Classificação e Regressão - CART)
� Alternativa ou complemento a procedimentos estatísticos de classificação e regressão como:
� Regressão linear múltipla;
� Regressão logística;
� Análise de sobrevivência;
� Análise discriminante;
� Análise de agrupamentos, dentre outros.
1.1 Atrativos
� Procedimento de simples aplicação;
� Possibilidade de modelar dados com estruturas complexas:
� Dados desbalanceados;� Dados faltantes;� Grande número de variáveis independentes.
� Detecção de interações de ordens elevadas;
� Ausência de pressuposições paramétricas;
� Produção de resultados facilmente interpretáveis.
1.2 Representação
Nó
inicial
Ramo
Ramo
Nó
Interm.
Nó final
Nó final
Nó final
Figura 1 – Ilustração de uma árvore de regressão/classificação
1.3 Construção das árvores
� Definição e execução de um critério de partição;
� Poda;
� Seleção do modelo;
� Caracterização dos nós finais.
1.3.1 Definição e execução de um critério de partição
As partições devem ser realizadas com base nos resultados das
co-variáveis.
� Seja { }, , 1,2,...,j j
Y j n=X observações de uma variável dependente Y
e de um vetor p-dimensional de variáveis independentes X .
Deve-se partir a amostra original em duas, agrupando
observações de acordo com respostas a questões do tipo:
1.3.1 Definição e execução de um critério de partição
� Para covariáveis numéricas: “ τ≤ijX ?"
� ijX : valor da ésimai − variável no elemento j ; � τ : qualquer valor amostrado ésimai − variável.
� Para covariáveis categorizadas: “ Axij ∈ ?"
� A : qualquer categoria (ou subconjunto de categorias) de iX .
1.3.1 Definição e execução de um critério de partição
� Questão: Qual das possíveis partições deve ser executada?
� Aquela que melhor explicar a variação da resposta, constituindo sub-amostras pouco heterogêneas.
� Quantifica-se a heterogeneidade das sub-amostras constituídas por meio de alguma medida de impureza.
1.3.1 Definição e execução de um critério de partição
� Medidas de impureza
� Para árvores de classificação: índice de entropia.
Considere um nó t qualquer. Dispõe-se, por exemplo,
da seguinte medida de impureza:
( ) ( )( )( ) | log |k
t p k t p k tφ = −∑
( )tkp | : proporção de observações pertencentes ao nó t e
à classe k.
1.3.1 Definição e execução de um critério de partição
� Medidas de impureza
� Para árvores de regressão: índice ANOVA.
( ) ( ){ }∑ −=i
tytjyt2
|)(φ
( )tjy | : observação j em t ;
( )ty : média das observações no nó t .
1.3.1 Definição e execução de um critério de partição
� Variação da impureza
Considere um nó t dividido em dois novos nós, Lt e Rt
baseado em uma partição s . A redução da impureza
produzida pela partição é calculada como:
( ) ( ) ( ) ( )R
RL
L tn
nt
n
ntts φφφφ −−=∆ ,
� Executa-se s que maxim iza ( )ts,φ∆ . � Procede-se igualmente em relação às sub-
amostras até a constituição de uma árvore com reduzido número de observações em cada nó final
1.3.2 Poda
� Objetivo: Eliminar da árvore partições que pouco contribuem para a explicação da variável resposta.
� Método: Baseado nos valores de uma função de custo-complexidade:
1.3.2 Poda
� Baseada na seguinte função de custo-complexidade:
( ) ( ) TTRTR~
αα +=
( ) ( )t T
R T tφ∈
= ∑�
: custo associado à taxa de má-classificação da árvore;
T~: número de nós finais da árvore;
0≥α : parâmetro de complexidade.
� Aumentando o valor de α a partir de zero obtém-se uma seqüência aninhada de árvores de tamanho decrescente, cada uma ótima para seu tamanho.
1.3.3 Seleção do modelo
� Construção de um gráfico de custo-complexidade, representando as árvores da seqüência aninhada com custos estimados por validação cruzada;
� Seleção da árvore pela regra do desvio padrão (1-se rule – Breiman et al, 1984).
1.3.3 Seleção do modelo
T am anho d a árvo re
Cu
sto
de
má
-cla
ssifi
ca
çã
o
1 S E
V alid aç ão c ruzad aR e -s ub s tituiç ão
Figura 2 - Curva de custo complexidade.
1.3.4 Caracterização dos nós finais
� Árvores de classificação: por meio das proporções de ocorrências de cada uma das classes;
� Árvores de regressão: com a média das observações que formam o nó.
� Predição: Realizada conduzindo cada nova observação pela árvore e inferindo o valor da resposta de acordo com o valor característico do nó final ao qual foi alocada.
1.4 Exemplo
� Dados: Distribuição de 12 espécies de aranhas caçadoras capturadas em armadilhas em dunas holandesas (Van de Art e Smeeck Enserinck, 1975). Foram amostradas 28 locações.
� Variáveis respostas:
� Abundâncias – tomadas as raízes quadrada
1.4 Exemplo
� Variáveis ambientais:
� Mseca: logaritmo da porcentagem de matéria seca no solo;
� Areia: logaritmo da porcentagem de cobertura com areia;
� Galhos: logaritmo da porcentagem de cobertura com galhos e folhas;
� Musgos: logaritmo da porcentagem de cobertura com musgos;
� Capim: logaritmo da porcentagem de cobertura com capim;
� Ref: reflexão da superfície do solo com o céu encoberto.
� Nota: Amplitude das variáveis ambientais divididas em 10 classes, correspondentes aos valores inteiros entre zero e nove.
1.4 Exemplo
Arcttosa lutetiana Pardosa lugubris Zora spinimana Pardosa nigriceps
Pardosa pullata Aulonia albimana Trochosa terricola Alopecosa cuneata
Pardosa monticola Alopecosa accentuata Alopecosa fabrilis Arctosa perita
Figura 2 – Aranhas caçadoras
1.4 Exemplo
Espécie: A lopecosa accentuata
c p
X-v
al R
ela
tive
Err
or
0.2
0.4
0.6
0.8
1.0
1.2
1.4
In f 0 .3 0 .1 2 0 .0 4 0 .0 1 3
1 2 3 4 5
S i z e o f tre e
M i n + 1 S E
Figura 3 – G ráfico de custo-com plexidade
1.4 Exemplo
ref< 7.5
ref< 4 capim< 5.5
ref>=7.5
ref>=4 capim>=5.5
0n=11
1.3333n=6 1.75
n=43.8571
n=7
Figura 4 – Árvore de regressão para Alopecosa accentuata
1.4 Exemplo
Figura 5 – Partições
1.4 Exemplo
capim< 6.5
musgos< 4.5 musgos< 6
capim>=6.5
musgos>=4.5 musgos>=6
0.21602n=9
2.2891n=8
3.0834n=8
8.403n=3
Figura 6 – Árvore de regressão para Pardosa monticola
1.4 Exemplo
capim< 8.5
ref>=6
capim>=8.5
ref< 6
1.0789n=10
4.7329n=10
8.5003n=8
Figura 7 – Árvore de regressão para Trochosa terricola
1.4 Exemplo
galhos< 8
mseca>=7.5
galhos>=8
mseca< 7.50.44418
n=20
2.0075n=5
4.6915n=3
Figura 8 – Árvore de regressão para Pardosa lugubris
1.4 Exemplo
arct.lute
0 2 4 6 0 2 4 6 8 0 1 2 3 4 5
0.0
2.0
04 pard.lugu
zora.spin
02
4
04
8
pard.nigr
pard.pull
04
8
0.0 1.0 2.0 3.0
02
4
0 1 2 3 4 5 0 2 4 6 8
aulo.albi
Figura 9 – Gráficos de dispersão
1.4 Exemplo
� Problemas:
� Elevado número de espécies;
� Correlação entre abundâncias das diferentes espécies.
� Solução:
� Análise multivariada
2. Árvores de Regressão multivariadas (De Ath, 2002)
� Estudo da relação espécies/ambiente através da construção de árvores de regressão multivariadas.
� Objetivos :� Detectar quais fatores ambientais (ou combinações
dos mesmos) são responsáveis pela distribuição espacial das 12 espécies de aranhas caçadoras.
� Identificar e analisar a co-existência ou predominância de determinadas espécies em locações com diferentes características.
2. Árvores de Regressão multivariadas
Tabela 2 - Alternativas de medidas de impureza (construção da árvore) e
de erro de predição (poda):
Descrição Impureza Erro de predição
Soma multivariada dos
quadrados dos desvios
em relação à média.
( )∑ −ji
jij yy,
2
( )∑ −∗
j
jyy2
Soma multivariada dos
desvios absolutos em
relação à mediana.
∑ −ji
jij yy,
~ ∑ −∗
j
jyy ~
Medidas de distância ∑> kki
ikd,
2
∑∑>
∗
−kki
ik
i
i
n
d
n
d
,2
22
2. Árvores de Regressão multivariadas
cp
X-v
al
Re
lati
ve
Err
or
0.2
0.4
0.6
0.8
1.0
1.2
Inf 0.27 0.1 0.059 0.041 0.035 0.026 0.014
1 2 3 4 5 6 7 8
Size of tree
M in + 1 SE
Figura 10 – Gráfico de complexidade para a árvore de regressão multivariada
2. Árvores de Regressão multivariadasherbs< 8.5
twigs< 3.5
herbs>=8.5
twigs>=3.5
195 : n=11 116 : n=9
167 : n=8
arct.lute
pard.lugu
zora.spin
pard.nigr
pard.pull
aulo.albi
troc.terr
alop.cune
pard.mont
alop.acce
alop.fabr
arct.peri
Error : 0.336 CV Error : 0.425 SE : 0.0717
Figura 11 – Árvore de regressão multivariada
2. Árvores de Regressão multivariadas
� Biplots (Gabriel, 1971)
� Gráfico bi-dimensional representando uma matriz de dados, com um ponto para cada uma das nobservações e um vetor para cada uma das pvariáveis
� A disposição dos pontos e vetores nos diferentes quadrantes do gráfico representa as correlações entre as variáveis e as observações.
2. Árvores de Regressão multivariadas
Dim 1 82.07 % : [ 0.927 ]
D
im
2
17
.93
% :
[ 0
.85
4 ] arct.lute
pard.lugu
zora.spin
pard.nigr
pard.pull
aulo.albi
troc.terr
alop.cune
pard.mont
alop.acce
alop.fabr
arct.peri
Figura 12 – Tree biplot
3. Conclusão
� CART
� Alternativa não paramétrica a diversos procedimentos estatísticos;
� Flexibilidade e simplicidade da técnica;
� Extensão multivariada: análise conjunta de duas ou mais variáveis respostas;
� Identificação de fatores ambientais associados à abundância de espécies de aranhas caçadoras.
4. Referências� BREIMAN, L., J.H. FRIEDMAN, R.A. OLSHEN, AND C.G.
STONE. (1984), Classification and regression trees. Wadsworth International Group, California, 358p, 1984.
� DE’ATH, G. Multivariate Regression Trees: A New Technique for Modeling Species-Environment Relationships. Ecology, 83, 4, 1105–1117, 2002.
� GABRIEL, K. R. The biplot graphical display of matrices withapplication to principal component analysis. Biometrika,58, 453–467,1971.
� VAN DE ART, P.J., N. SMEECK ENSERINCK. Correlations between distributions of hunting spiders (Lycosidae, Ctenidae) and environmental characteristics in a dune área. Netherlands Journal of Zoology, 25,1-45, 1975.