Ávores de Decisão

15

Click here to load reader

Transcript of Ávores de Decisão

Page 1: Ávores de Decisão

Malia Project – HP Labs & Institute of Informatics – UFRGS © 2009 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice

Árvores de Decisão Ricardo Luis dos Santos

Page 2: Ávores de Decisão

Malia Project – HP Labs & Institute of Informatics – UFRGS

• Introdução

• Construção da Árvore de Decisão

• Algoritmo ID3 – C4.5

• Exemplo

Agenda

Wednesday, March 06, 2013 2

Page 3: Ávores de Decisão

Malia Project – HP Labs & Institute of Informatics – UFRGS

Introdução

• Uma forma simples de representar o conhecimento

• Largamente utilizada para mineração de dados

• Possui a habilidade de “aprender” através de exemplos com o objetivo de classificar registros

• Os conceitos/regras/ações/decisões de um problema são descritos através de exemplos

• As instâncias (casos) são representados por pares do tipo atributo-valor, formando uma tabela

• Possibilita identificar uma ação/categoria através de exemplos anteriores

Wednesday, March 06, 2013

3

Page 4: Ávores de Decisão

Malia Project – HP Labs & Institute of Informatics – UFRGS

Construção da Árvore de Decisão • A construção de uma Árvore de Decisão é guiada

pela redução na dificuldade de previsão da variável objetivo

• Visando tal redução são especificados nós (atributos) que auxiliam na identificação do caso

• Para reduzir a dificuldade de previsão é selecionado o atributo que mais “auxilie” na classificação

Wednesday, March 06, 2013 4

Page 5: Ávores de Decisão

Malia Project – HP Labs & Institute of Informatics – UFRGS

Construção da Árvore de Decisão • Existem duas métricas que auxiliam para identificar

tal atributo que são a:

• Entropia - indica a homogeneidade dos exemplos contidos em um conjunto de dados. É utilizada para estimar a aleatoriedade da variável a ser prevista

• Ganho de Informação - indica a redução da entropia causada pela divisão dos exemplos de acordo com os valores dos atributos

Wednesday, March 06, 2013 5

Page 6: Ávores de Decisão

Malia Project – HP Labs & Institute of Informatics – UFRGS

Algoritmo ID3 – C4.5

• O algoritmo ID3 (inductive decision tree) é o mais utilizado. Um melhoramento deste foi nomeado de C4.5. Tal algoritmo segue os seguintes passos:

1. Começar com todos os exemplos de treino

2. Escolher o teste (atributo) que melhor divide os exemplos, ou seja, o atributo que melhor agrupa exemplos da mesma classe ou exemplos semelhantes

3. Para o atributo escolhido, criar um nó filho para cada valor possível do atributo

4. Transportar os exemplos para cada filho tendo em conta o valor do filho

5. Repetir o procedimento para cada filho não "puro"

Wednesday, March 06, 2013 6

Page 7: Ávores de Decisão

Malia Project – HP Labs & Institute of Informatics – UFRGS

Exemplo Tabela de Decisão ou de Conhecimento

Wednesday, March 06, 2013 7

Previsão Temperatura (°F) Umidade Vento Jogar

Ensolarado 85 85 Não Não Jogar

Ensolarado 80 90 Sim Não Jogar

Encoberto 83 78 Não Jogar

Chovendo 70 96 Não Jogar

Chovendo 68 80 Não Jogar

Chovendo 65 70 Sim Não Jogar

Encoberto 64 65 Sim Jogar

Ensolarado 72 95 Não Não Jogar

Ensolarado 69 70 Não Jogar

Chovendo 75 80 Não Jogar

Ensolarado 75 70 Sim Jogar

Encoberto 72 90 Sim Jogar

Encoberto 81 75 Não Jogar

Chovendo 71 80 Sim Não Jogar

Page 8: Ávores de Decisão

Malia Project – HP Labs & Institute of Informatics – UFRGS

Exemplo Fórmulas da Entropia

• Entropia para alternativas binárias

• Entropia para N alternativas

Wednesday, March 06, 2013 8

Page 9: Ávores de Decisão

Malia Project – HP Labs & Institute of Informatics – UFRGS

Exemplo Fórmula do Ganho de Informação

• Entropia calculada

• Ganho de Informação

Wednesday, March 06, 2013 9

Page 10: Ávores de Decisão

Malia Project – HP Labs & Institute of Informatics – UFRGS

• Ganhos de Informação calculadas

10

Exemplo Valores calculados

Wednesday, March 06, 2013

Atributo Ganho de Informação

Previsão 0,2467

Temperatura (°F) 0,0251

Umidade 0,0453

Vento 0,0481

Page 11: Ávores de Decisão

Malia Project – HP Labs & Institute of Informatics – UFRGS

Exemplo Árvore de Decisão formada a partir da entropia e do ganho de informação

Wednesday, March 06, 2013 11

Ensolarado Encoberto Chovendo

Atributo Ganho

Temperatura 0,4200

Umidade 0,9710

Vento 0,0200

Entropia 0,9710

Atributo Ganho

Temperatura 0,0000

Umidade 0,9710

Vento 0,9710

Entropia 0,9710

Atributo Ganho

Temperatura 0,0000

Umidade 0,0000

Vento 0,0000

Entropia 0,0000

Previsão

Page 12: Ávores de Decisão

Malia Project – HP Labs & Institute of Informatics – UFRGS

Exemplo Árvore de Decisão formada a partir da entropia e do ganho de informação

Wednesday, March 06, 2013 12

Não Jogar Jogar Jogar Não Jogar

Jogar Umidade Vento

Ensolarado Encoberto Chovendo

<= 75 > 75 Sim Não

Previsão

Page 13: Ávores de Decisão

Obrigado pela Atenção!

Perguntas?

Page 14: Ávores de Decisão

Malia Project – HP Labs & Institute of Informatics – UFRGS

Características

• Possibilidade de três utilizações, mas com o foco do “ganho de informação” em diferentes escopos:

• De uma maneira geral, calculando tal métrica para cada pergunta, substituindo a contagem total de identificações de cada CR

• Utilização do foco de “ganho de informação” dentro da CR mais vezes identificadas

• Utilização juntamente com a contagem total de identificações de cada CR (por exemplo, Ganho x Identificação)

Wednesday, March 06, 2013 14

Page 15: Ávores de Decisão

Malia Project – HP Labs & Institute of Informatics – UFRGS

Características

• Possibilita a identificação de perguntas que melhor dividem as alternativas

• CRs novas possuem um “peso” maior na seleção de perguntas

• Análise das perguntas óbvias mais “inteligente”, considerando respostas das perguntas anteriores

• Se utilizada isolada, não garante que perguntas mais vezes selecionadas serão realizadas primeiro

Wednesday, March 06, 2013 15