Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1 Construindo Árvores de...

12
Departamento de Informática Marcos Henrique Fonseca Ribeiro – Slide 1 Construindo Árvores de Construindo Árvores de Decisão Decisão No True High Mild Rainy Yes False Normal Hot Overcast Yes True High Mild Overcast Yes True Normal Mild Sunny Yes False Normal Mild Rainy Yes False Normal Cool Sunny No False High Mild Sunny Yes True Normal Cool Overcast No True Normal Cool Rainy Yes False Normal Cool Rainy Yes False High Mild Rainy Yes False High Hot Overcast No True High Hot Sunny No False High Hot Sunny Play Windy Humidity Temp Outlook Do livro: “Data Mining: Practical Machine Learning Tools and Techniques”

Transcript of Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1 Construindo Árvores de...

Page 1: Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1 Construindo Árvores de Decisão NoTrueHighMildRainy YesFalseNormalHotOvercast YesTrueHighMildOvercast.

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1

Construindo Árvores de DecisãoConstruindo Árvores de Decisão

NoTrueHighMildRainy

YesFalseNormalHotOvercast

YesTrueHighMildOvercast

YesTrueNormalMildSunny

YesFalseNormalMildRainy

YesFalseNormalCoolSunny

NoFalseHighMildSunny

YesTrueNormalCoolOvercast

NoTrueNormalCoolRainy

YesFalseNormalCoolRainy

YesFalseHighMildRainy

YesFalseHighHot Overcast

NoTrueHigh Hot Sunny

NoFalseHighHotSunny

PlayWindyHumidityTempOutlook

Do livro: “Data Mining: Practical Machine Learning Tools and Techniques”

Page 2: Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1 Construindo Árvores de Decisão NoTrueHighMildRainy YesFalseNormalHotOvercast YesTrueHighMildOvercast.

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 2

Construindo Árvores de DecisãoConstruindo Árvores de Decisão

5/14

5

No

9/14

9

Yes

Play

3/5

2/5

3

2

No

3/9

6/9

3

6

Yes

True

False

True

False

Windy

1/5

4/5

1

4

NoYesNoYesNoYes

6/9

3/9

6

3

Normal

High

Normal

High

Humidity

1/5

2/5

2/5

1

2

2

3/9

4/9

2/9

3

4

2

Cool2/53/9Rainy

Mild

Hot

Cool

Mild

Hot

Temperature

0/54/9Overcast

3/52/9Sunny

23Rainy

04Overcast

32Sunny

Outlook

NoTrueHighMildRainy

YesFalseNormalHotOvercast

YesTrueHighMildOvercast

YesTrueNormalMildSunny

YesFalseNormalMildRainy

YesFalseNormalCoolSunny

NoFalseHighMildSunny

YesTrueNormalCoolOvercast

NoTrueNormalCoolRainy

YesFalseNormalCoolRainy

YesFalseHighMildRainy

YesFalseHighHot Overcast

NoTrueHigh Hot Sunny

NoFalseHighHotSunny

PlayWindyHumidityTempOutlook

Do livro: “Data Mining: Practical Machine Learning Tools and Techniques”

Page 3: Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1 Construindo Árvores de Decisão NoTrueHighMildRainy YesFalseNormalHotOvercast YesTrueHighMildOvercast.

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 3

Construindo Árvores de DecisãoConstruindo Árvores de Decisão

• Estratégia: top-down• Aplica recursivamente a estratégia de divisão

e conquista:– Seleciona o atributo para o nó raiz e cria um ramo

para cada possível valor do atributo– Divide as instâncias em subconjuntos, sendo um

para cada ramo originado no nó– Repetir o processo recursivamente para cada

ramo, usando apenas as instâncias que atinjam aquele ramo

– Parar se todas as instâncias forem da mesma classe

Page 4: Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1 Construindo Árvores de Decisão NoTrueHighMildRainy YesFalseNormalHotOvercast YesTrueHighMildOvercast.

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 4

Construindo Árvores de DecisãoConstruindo Árvores de Decisão

• Selecionando o atributo

Do livro: “Data Mining: Practical Machine Learning Tools and Techniques”

Page 5: Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1 Construindo Árvores de Decisão NoTrueHighMildRainy YesFalseNormalHotOvercast YesTrueHighMildOvercast.

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 5

Construindo Árvores de DecisãoConstruindo Árvores de Decisão

• Selecionando o atributo– Qual o melhor atributo?

• Deseja-se obter a menor árvore possível• Heurística: escolher o atributo que gere os nós mais

“puros”

– Uma medida bastante utilizada para se medir a “impureza” de um nó é a information gain, ou ganho de informação

– Estratégia: escolher o atributo que apresente o maior ganho de informação

Page 6: Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1 Construindo Árvores de Decisão NoTrueHighMildRainy YesFalseNormalHotOvercast YesTrueHighMildOvercast.

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 6

Construindo Árvores de DecisãoConstruindo Árvores de Decisão

• Computando informação– Medida de informação: bits

• Dada uma probabilidade de distribuição, a informação requerida para predizer um evento é a chamada entropia da distribuição

• A entropia dá essa informação requerida em bits (podendo ter valores fracionados)

– Fórmula para a entropia:

– Obs:

)(log...)(log)(log),...,,( 222212121 nnn pppppppppentropia

)2(log/)(log)(log 10102 xx

Entropia

Na Teoria da Informação, a entropia da informação, ou entropia de Shannon, é uma medida da incerteza associada a uma variável aleatória. Quantifica a informação contida em uma mensagem, usualmente em bits ou bits/símbolo. É o tamanho mínimo da mensagem para comunicar informação, isto é, para conter todos os valores ou significados desta mensagem.

Ex: para uma variável que representa o sexo de uma pessoa, a entropia é 1, pois tal conceito pode ser expresso em 1 bit:

Na Física, entropia é um conceito da Termodinâmica que está associado à desordem molecular.

Entropia

Na Teoria da Informação, a entropia da informação, ou entropia de Shannon, é uma medida da incerteza associada a uma variável aleatória. Quantifica a informação contida em uma mensagem, usualmente em bits ou bits/símbolo. É o tamanho mínimo da mensagem para comunicar informação, isto é, para conter todos os valores ou significados desta mensagem.

Ex: para uma variável que representa o sexo de uma pessoa, a entropia é 1, pois tal conceito pode ser expresso em 1 bit:

Na Física, entropia é um conceito da Termodinâmica que está associado à desordem molecular.

bitentropiaFMInfo 1)2/1(log2/1)2/1(log2/1)2/1,2/1(]),([ 22

Page 7: Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1 Construindo Árvores de Decisão NoTrueHighMildRainy YesFalseNormalHotOvercast YesTrueHighMildOvercast.

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 7

Construindo Árvores de DecisãoConstruindo Árvores de Decisão

• Computando informação– Exemplo para o atributo outlook:

• Outlook = Sunny

• Outlook = Overcast

• Outlook = Rainy

• Informação esperada para o atributo

bitsentropiaInfo 971,0)5/3(log5/3)5/2(log5/2)5/3,5/2(])3,2([ 22

bitsentropiaInfo 971,0)5/2(log5/2)5/3(log5/3)5/2,5/3(])2,3([ 22

bitsentropiaInfo 0)0(log0)1(log)4/0,4/4(])0,4([ 22

bitsInfo 693,0971,0)14/5(0)14/4(971,0)14/5(])2,3[],0,4[],3,2([

Normalmente é indefinido

Page 8: Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1 Construindo Árvores de Decisão NoTrueHighMildRainy YesFalseNormalHotOvercast YesTrueHighMildOvercast.

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 8

Construindo Árvores de DecisãoConstruindo Árvores de Decisão

• Computando o ganho de informação– Ganho de informação = informação antes da

divisão – informação depois da divisão

– Ganho de informação para os atributos

bitsInfoInfoOutlookganho 247,0693,0940,0])2,3[],0,4[],3,2([])5,9([)(

bitsWindyganho

bitsHumidityganho

bitseTemperaturganho

bitsOutlookganho

048,0)(

152,0)(

029,0)(

247,0)(

Page 9: Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1 Construindo Árvores de Decisão NoTrueHighMildRainy YesFalseNormalHotOvercast YesTrueHighMildOvercast.

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 9

Construindo Árvores de DecisãoConstruindo Árvores de Decisão

• Continuando a construção...

bitsWindyganho

bitsHumidityganho

bitseTemperaturganho

020,0)(

971,0)(

571,0)(

Page 10: Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1 Construindo Árvores de Decisão NoTrueHighMildRainy YesFalseNormalHotOvercast YesTrueHighMildOvercast.

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 10

Construindo Árvores de DecisãoConstruindo Árvores de Decisão

• Árvore Final

• Obs: nem toda folha necessita ser “pura”, fazendo com que algumas vezes, instâncias idênticas possam ter classes diferentes

• As divisões param quando os dados não puderem mais ser divididos

Page 11: Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1 Construindo Árvores de Decisão NoTrueHighMildRainy YesFalseNormalHotOvercast YesTrueHighMildOvercast.

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 11

Construindo Árvores de DecisãoConstruindo Árvores de Decisão

• Características desejadas para uma medida de “pureza”:– Quando um nó é puro, a medida deve ser zero;– Quando a impureza é máxima (classes igualmente

prováveis), a medida deve ser máxima (um);– A medida deve obedecer à propriedade “multiestágio”, isto

é, as decisões podem ser feitas em diversos estágios diferentes:

• Entropia é a única medida que satisfaz as 3 propriedades

])4,3([)9/7(])7,2([])4,3,2([ medidamedidamedida

Page 12: Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1 Construindo Árvores de Decisão NoTrueHighMildRainy YesFalseNormalHotOvercast YesTrueHighMildOvercast.

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 12

Construindo Árvores de DecisãoConstruindo Árvores de Decisão

• Propriedades da Entropia– Propriedade “Multiestágio”:

– Simplificação de Computação:

– Obs: ao invés de maximizar o ganho de informação, poderíamos minimizar a informação

),()(),(),,(rq

r

rq

qentropiarqrqpentropiarqpentropia

9/)]9(log9)4(log4)3(log3)2(log2[

)9/4(log9/4)9/3(log9/3)9/2(log9/2])4,3,2([

2222

222

Info