Ávores de Decisão
Click here to load reader
-
Upload
ricardo-luis-dos-santos -
Category
Documents
-
view
367 -
download
0
Transcript of Ávores de Decisão
Malia Project – HP Labs & Institute of Informatics – UFRGS © 2009 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice
Árvores de Decisão Ricardo Luis dos Santos
Malia Project – HP Labs & Institute of Informatics – UFRGS
• Introdução
• Construção da Árvore de Decisão
• Algoritmo ID3 – C4.5
• Exemplo
Agenda
Wednesday, March 06, 2013 2
Malia Project – HP Labs & Institute of Informatics – UFRGS
Introdução
• Uma forma simples de representar o conhecimento
• Largamente utilizada para mineração de dados
• Possui a habilidade de “aprender” através de exemplos com o objetivo de classificar registros
• Os conceitos/regras/ações/decisões de um problema são descritos através de exemplos
• As instâncias (casos) são representados por pares do tipo atributo-valor, formando uma tabela
• Possibilita identificar uma ação/categoria através de exemplos anteriores
Wednesday, March 06, 2013
3
Malia Project – HP Labs & Institute of Informatics – UFRGS
Construção da Árvore de Decisão • A construção de uma Árvore de Decisão é guiada
pela redução na dificuldade de previsão da variável objetivo
• Visando tal redução são especificados nós (atributos) que auxiliam na identificação do caso
• Para reduzir a dificuldade de previsão é selecionado o atributo que mais “auxilie” na classificação
Wednesday, March 06, 2013 4
Malia Project – HP Labs & Institute of Informatics – UFRGS
Construção da Árvore de Decisão • Existem duas métricas que auxiliam para identificar
tal atributo que são a:
• Entropia - indica a homogeneidade dos exemplos contidos em um conjunto de dados. É utilizada para estimar a aleatoriedade da variável a ser prevista
• Ganho de Informação - indica a redução da entropia causada pela divisão dos exemplos de acordo com os valores dos atributos
Wednesday, March 06, 2013 5
Malia Project – HP Labs & Institute of Informatics – UFRGS
Algoritmo ID3 – C4.5
• O algoritmo ID3 (inductive decision tree) é o mais utilizado. Um melhoramento deste foi nomeado de C4.5. Tal algoritmo segue os seguintes passos:
1. Começar com todos os exemplos de treino
2. Escolher o teste (atributo) que melhor divide os exemplos, ou seja, o atributo que melhor agrupa exemplos da mesma classe ou exemplos semelhantes
3. Para o atributo escolhido, criar um nó filho para cada valor possível do atributo
4. Transportar os exemplos para cada filho tendo em conta o valor do filho
5. Repetir o procedimento para cada filho não "puro"
Wednesday, March 06, 2013 6
Malia Project – HP Labs & Institute of Informatics – UFRGS
Exemplo Tabela de Decisão ou de Conhecimento
Wednesday, March 06, 2013 7
Previsão Temperatura (°F) Umidade Vento Jogar
Ensolarado 85 85 Não Não Jogar
Ensolarado 80 90 Sim Não Jogar
Encoberto 83 78 Não Jogar
Chovendo 70 96 Não Jogar
Chovendo 68 80 Não Jogar
Chovendo 65 70 Sim Não Jogar
Encoberto 64 65 Sim Jogar
Ensolarado 72 95 Não Não Jogar
Ensolarado 69 70 Não Jogar
Chovendo 75 80 Não Jogar
Ensolarado 75 70 Sim Jogar
Encoberto 72 90 Sim Jogar
Encoberto 81 75 Não Jogar
Chovendo 71 80 Sim Não Jogar
Malia Project – HP Labs & Institute of Informatics – UFRGS
Exemplo Fórmulas da Entropia
• Entropia para alternativas binárias
• Entropia para N alternativas
Wednesday, March 06, 2013 8
Malia Project – HP Labs & Institute of Informatics – UFRGS
Exemplo Fórmula do Ganho de Informação
• Entropia calculada
• Ganho de Informação
Wednesday, March 06, 2013 9
Malia Project – HP Labs & Institute of Informatics – UFRGS
• Ganhos de Informação calculadas
10
Exemplo Valores calculados
Wednesday, March 06, 2013
Atributo Ganho de Informação
Previsão 0,2467
Temperatura (°F) 0,0251
Umidade 0,0453
Vento 0,0481
Malia Project – HP Labs & Institute of Informatics – UFRGS
Exemplo Árvore de Decisão formada a partir da entropia e do ganho de informação
Wednesday, March 06, 2013 11
Ensolarado Encoberto Chovendo
Atributo Ganho
Temperatura 0,4200
Umidade 0,9710
Vento 0,0200
Entropia 0,9710
Atributo Ganho
Temperatura 0,0000
Umidade 0,9710
Vento 0,9710
Entropia 0,9710
Atributo Ganho
Temperatura 0,0000
Umidade 0,0000
Vento 0,0000
Entropia 0,0000
Previsão
Malia Project – HP Labs & Institute of Informatics – UFRGS
Exemplo Árvore de Decisão formada a partir da entropia e do ganho de informação
Wednesday, March 06, 2013 12
Não Jogar Jogar Jogar Não Jogar
Jogar Umidade Vento
Ensolarado Encoberto Chovendo
<= 75 > 75 Sim Não
Previsão
Obrigado pela Atenção!
Perguntas?
Malia Project – HP Labs & Institute of Informatics – UFRGS
Características
• Possibilidade de três utilizações, mas com o foco do “ganho de informação” em diferentes escopos:
• De uma maneira geral, calculando tal métrica para cada pergunta, substituindo a contagem total de identificações de cada CR
• Utilização do foco de “ganho de informação” dentro da CR mais vezes identificadas
• Utilização juntamente com a contagem total de identificações de cada CR (por exemplo, Ganho x Identificação)
Wednesday, March 06, 2013 14
Malia Project – HP Labs & Institute of Informatics – UFRGS
Características
• Possibilita a identificação de perguntas que melhor dividem as alternativas
• CRs novas possuem um “peso” maior na seleção de perguntas
• Análise das perguntas óbvias mais “inteligente”, considerando respostas das perguntas anteriores
• Se utilizada isolada, não garante que perguntas mais vezes selecionadas serão realizadas primeiro
Wednesday, March 06, 2013 15