Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1 Construindo Árvores de...

Post on 18-Apr-2015

104 views 1 download

Transcript of Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1 Construindo Árvores de...

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1

Construindo Árvores de DecisãoConstruindo Árvores de Decisão

NoTrueHighMildRainy

YesFalseNormalHotOvercast

YesTrueHighMildOvercast

YesTrueNormalMildSunny

YesFalseNormalMildRainy

YesFalseNormalCoolSunny

NoFalseHighMildSunny

YesTrueNormalCoolOvercast

NoTrueNormalCoolRainy

YesFalseNormalCoolRainy

YesFalseHighMildRainy

YesFalseHighHot Overcast

NoTrueHigh Hot Sunny

NoFalseHighHotSunny

PlayWindyHumidityTempOutlook

Do livro: “Data Mining: Practical Machine Learning Tools and Techniques”

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 2

Construindo Árvores de DecisãoConstruindo Árvores de Decisão

5/14

5

No

9/14

9

Yes

Play

3/5

2/5

3

2

No

3/9

6/9

3

6

Yes

True

False

True

False

Windy

1/5

4/5

1

4

NoYesNoYesNoYes

6/9

3/9

6

3

Normal

High

Normal

High

Humidity

1/5

2/5

2/5

1

2

2

3/9

4/9

2/9

3

4

2

Cool2/53/9Rainy

Mild

Hot

Cool

Mild

Hot

Temperature

0/54/9Overcast

3/52/9Sunny

23Rainy

04Overcast

32Sunny

Outlook

NoTrueHighMildRainy

YesFalseNormalHotOvercast

YesTrueHighMildOvercast

YesTrueNormalMildSunny

YesFalseNormalMildRainy

YesFalseNormalCoolSunny

NoFalseHighMildSunny

YesTrueNormalCoolOvercast

NoTrueNormalCoolRainy

YesFalseNormalCoolRainy

YesFalseHighMildRainy

YesFalseHighHot Overcast

NoTrueHigh Hot Sunny

NoFalseHighHotSunny

PlayWindyHumidityTempOutlook

Do livro: “Data Mining: Practical Machine Learning Tools and Techniques”

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 3

Construindo Árvores de DecisãoConstruindo Árvores de Decisão

• Estratégia: top-down• Aplica recursivamente a estratégia de divisão

e conquista:– Seleciona o atributo para o nó raiz e cria um ramo

para cada possível valor do atributo– Divide as instâncias em subconjuntos, sendo um

para cada ramo originado no nó– Repetir o processo recursivamente para cada

ramo, usando apenas as instâncias que atinjam aquele ramo

– Parar se todas as instâncias forem da mesma classe

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 4

Construindo Árvores de DecisãoConstruindo Árvores de Decisão

• Selecionando o atributo

Do livro: “Data Mining: Practical Machine Learning Tools and Techniques”

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 5

Construindo Árvores de DecisãoConstruindo Árvores de Decisão

• Selecionando o atributo– Qual o melhor atributo?

• Deseja-se obter a menor árvore possível• Heurística: escolher o atributo que gere os nós mais

“puros”

– Uma medida bastante utilizada para se medir a “impureza” de um nó é a information gain, ou ganho de informação

– Estratégia: escolher o atributo que apresente o maior ganho de informação

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 6

Construindo Árvores de DecisãoConstruindo Árvores de Decisão

• Computando informação– Medida de informação: bits

• Dada uma probabilidade de distribuição, a informação requerida para predizer um evento é a chamada entropia da distribuição

• A entropia dá essa informação requerida em bits (podendo ter valores fracionados)

– Fórmula para a entropia:

– Obs:

)(log...)(log)(log),...,,( 222212121 nnn pppppppppentropia

)2(log/)(log)(log 10102 xx

Entropia

Na Teoria da Informação, a entropia da informação, ou entropia de Shannon, é uma medida da incerteza associada a uma variável aleatória. Quantifica a informação contida em uma mensagem, usualmente em bits ou bits/símbolo. É o tamanho mínimo da mensagem para comunicar informação, isto é, para conter todos os valores ou significados desta mensagem.

Ex: para uma variável que representa o sexo de uma pessoa, a entropia é 1, pois tal conceito pode ser expresso em 1 bit:

Na Física, entropia é um conceito da Termodinâmica que está associado à desordem molecular.

Entropia

Na Teoria da Informação, a entropia da informação, ou entropia de Shannon, é uma medida da incerteza associada a uma variável aleatória. Quantifica a informação contida em uma mensagem, usualmente em bits ou bits/símbolo. É o tamanho mínimo da mensagem para comunicar informação, isto é, para conter todos os valores ou significados desta mensagem.

Ex: para uma variável que representa o sexo de uma pessoa, a entropia é 1, pois tal conceito pode ser expresso em 1 bit:

Na Física, entropia é um conceito da Termodinâmica que está associado à desordem molecular.

bitentropiaFMInfo 1)2/1(log2/1)2/1(log2/1)2/1,2/1(]),([ 22

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 7

Construindo Árvores de DecisãoConstruindo Árvores de Decisão

• Computando informação– Exemplo para o atributo outlook:

• Outlook = Sunny

• Outlook = Overcast

• Outlook = Rainy

• Informação esperada para o atributo

bitsentropiaInfo 971,0)5/3(log5/3)5/2(log5/2)5/3,5/2(])3,2([ 22

bitsentropiaInfo 971,0)5/2(log5/2)5/3(log5/3)5/2,5/3(])2,3([ 22

bitsentropiaInfo 0)0(log0)1(log)4/0,4/4(])0,4([ 22

bitsInfo 693,0971,0)14/5(0)14/4(971,0)14/5(])2,3[],0,4[],3,2([

Normalmente é indefinido

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 8

Construindo Árvores de DecisãoConstruindo Árvores de Decisão

• Computando o ganho de informação– Ganho de informação = informação antes da

divisão – informação depois da divisão

– Ganho de informação para os atributos

bitsInfoInfoOutlookganho 247,0693,0940,0])2,3[],0,4[],3,2([])5,9([)(

bitsWindyganho

bitsHumidityganho

bitseTemperaturganho

bitsOutlookganho

048,0)(

152,0)(

029,0)(

247,0)(

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 9

Construindo Árvores de DecisãoConstruindo Árvores de Decisão

• Continuando a construção...

bitsWindyganho

bitsHumidityganho

bitseTemperaturganho

020,0)(

971,0)(

571,0)(

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 10

Construindo Árvores de DecisãoConstruindo Árvores de Decisão

• Árvore Final

• Obs: nem toda folha necessita ser “pura”, fazendo com que algumas vezes, instâncias idênticas possam ter classes diferentes

• As divisões param quando os dados não puderem mais ser divididos

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 11

Construindo Árvores de DecisãoConstruindo Árvores de Decisão

• Características desejadas para uma medida de “pureza”:– Quando um nó é puro, a medida deve ser zero;– Quando a impureza é máxima (classes igualmente

prováveis), a medida deve ser máxima (um);– A medida deve obedecer à propriedade “multiestágio”, isto

é, as decisões podem ser feitas em diversos estágios diferentes:

• Entropia é a única medida que satisfaz as 3 propriedades

])4,3([)9/7(])7,2([])4,3,2([ medidamedidamedida

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 12

Construindo Árvores de DecisãoConstruindo Árvores de Decisão

• Propriedades da Entropia– Propriedade “Multiestágio”:

– Simplificação de Computação:

– Obs: ao invés de maximizar o ganho de informação, poderíamos minimizar a informação

),()(),(),,(rq

r

rq

qentropiarqrqpentropiarqpentropia

9/)]9(log9)4(log4)3(log3)2(log2[

)9/4(log9/4)9/3(log9/3)9/2(log9/2])4,3,2([

2222

222

Info