Ivete

Introdução

O presente trabalho de forma breve pretende dar a conhecer o funcionamento de Mineração de

Dados baseado em árvores de decisão. Sendo que os assuntos aqui abordados sigem-se apenas a

aspectos teóricos e não muito práticos.

Este trabalho tem como objectivo fornecer um apanhado geral das principais tarefas e a técnicas

de mineração de dados conhecida como Árvores de Decisão.

Em teoria, uma árvore de decisão é um gráfico em forma de árvore, contendo as decisões a

serem tomadas e suas possíveis conseqüências (riscos, custo, prejuízos), usado para criar um

plano para se alcançar um objetivo. Uma árvore de decisão é um modelo preditivo; Isto é, um

mapeamento de observações sobre um item para conclusões sobre o seu valor-alvo.

Cada nó interno corresponde uma variável; um arco para um nó-filho representa um possível

valor daquela variável. Uma folha representa o valor previsto da variável-alvo, dadas as variáveis

representadas no caminho até ela desde a raiz.

Conceituação de Árvores de decisão (ID3)

Indução de árvore de decisão é tradução da expressão inglesa (ID3 - inductive decision tree).

Uma árvore de decisão é uma representação de uma tabela sob a forma de uma árvore. Tem a

mesma utilidade da tabela de decisão. Trata-se de uma maneira alternativa de expressar as

mesmas regras que são obtidas quando se controi as tabela.

Uma árvore de decisão é uma estrutura de árvore onde:

Cada nó interno é um atributo do banco de dados de amostras, diferente do atributo-

classe;

As folhas são valores do atributo-classe;

Cada ramo ligando um nó-filho e um nó-pai é etiquetado com um valor do atributo

contido no nó-pai. Existem tantos ramos quantos valores possíveis para este atributo;

Um atributo que aparece num nó não pode aparecer em seus nós descendentes.

1

Numa árvore de decisão cada atributo é representado por um nó de decisão, cuja função é testar o

valor desse atributo. Uma classe é representada por um nó folha, que reúne todos os Exemplos

que chegarem a ele depois de satisfazerem os testes dos nós de decisão intermediários. Portanto,

numa Árvore de Decisão, a classificação de um Exemplo desconhecido implica percorrer toda a

árvore a partir de um no raiz, testando atributos em sucessivos nós internos áte chegar a um nó

folha que lhe atribuirá uma classe. O objectivo de uma Árvore de Decisão e retornar uma classe

para um Exemplo desconhecido.

O critério de escolha do melhor atributo para cada iteração no algoritmo ID3 vai definir o ganho

de informação, criado (QUINLAN, 1986), é medido pela significância estatística, que em nosso

caso se expressa pela proporção de "Sim"s e "Não"s no atributo de saida "Partida".

É mais promissor escolher um atributo que tenha associado a ele respostas compostas

unicamente por "Sim"s ou "Não"s porque neste caso podemos colocar um nó folha

correspondente e terminar com as subdivisões. Em outras palavras, quanto mais compacta uma

árvore, menos testes serão necessários para classificar um Exemplo.

Por outro lado, se o conjunto de respostas é composto por uma mistura de "Sim"s e "Não"s,

então faz-se necessário colocar mais um nó interno, com um novo atributo sendo testado,

implicando um crescimento da Árvore de Decisão.

Exemplo de uma árvore de decisão baseado na tabela apresentada, este é um exemplo clássico da

partida de tênis. Supondo que o objectivo é decidir se vou Jogar Ténis. Para tal, há que ter em

conta certos parâmetros do ambiente, como o Aspecto do Céu, a Temperatura, a Humidade e o

Vento. Cada um destes atributos tem vários valores. Por exemplo para a temperatura pode estar

Ameno, Fresco ou Quente. A decisão Sim (ir jogar ténis) ou Não (não ir jogar ténis) é o resultado

da classificação.

2

Ganho de informação

Para se determinar o ganho de informação é necessário que antes do mais se saiba determinar a

entropia, que é o maior dado no cálculo do do ganho de informação.

Entropia é o cálculo do ganho de informacao baseado em uma medida utilizada na teoria da

informação.

A entropia caracteriza a impureza dos dados: em um conjunto de dados, é uma medida da falta

de homogeneidade dos dados de entrada em relacao a sua classificação e a formula para o seu

cálculo pode ser determinada da seguinte forma:

3

Onde

S é o conjunto de exemplo de treino;

p+ é a porção de exemplos positivos;

p- é a porção de exemplos negativos;

O ganho de informação (information gain) define a redução na entropia. Ganho(S,A) significa a

redução esperada na entropia de S, ordenando pelo atributo A. O ganho é dado pela seguinte

equação:

Classificação das árvores de decisão

As árvores de decisão podem ser obtidas de duas formas que caracterizam-se por: árvore de

decisão compacta e árvore de decisão não compacta.

As árvores de decisão compactas são as que a quando da sua construção baseiam-se no meios

inteligentes de análise de modo a fazerem uma estrutura menos complexa enquanto que as não

compactas não seguem esse critério de análise.

O problema que nasce com a construção das árvores de decisão não compactas é o facto das

árvores sofrerem um sobreajuste (overfitting) de modo a atingir um resultado mesmo que não

seje o desejado/ ideal, assim sendo icorre-se ao risco do ajuste da árvore permitir que nós com

ruidos (outliers) e isso pode levar a um resultado incorrecto ou não exaústivo.

4

De modo a resolver o problema de overfitting recorre-se a podagem (pruning). A podagem

consiste em parar de crescer a árvore de decisão em dado momento, antes que ela classifique

perfeitamente o conjunto de treinamento.

A podagem pode ser dada de duas circunstancias. Pode ser usada para parar o crescimento da

árvore mais cedo, chamada de pre podagem ou poda descendente ou pode acontecer com a

árvore já completa, chamada de pós-podagem ou poda ascendente.

O processo de podagem pode ser feito da seguinte maneira:

1 - Percorre a árvore em profundidade.

2 - Para cada no de decisao calcula;

Erro no nó.

Soma dos erros do nó é menor ou igual à soma dos erros dos nós descendentes entao o nó é

transformado em folha.

3 - Se o erro do nó é menor ou igual à soma dos erros dos nós descendentes entao o nó é

transformado em folha.

Vantagens de ID3

Mais simples de entender e de implementar;

É um algoritmo recursivo;

É baseado em busca exaustiva;

Utiliza o Ganho de Informação para selecionar a melhor divisão;

Desvantagens de ID3

O ID3 é que ele só lida com atributos categóricos não-ordinais;

Não apresenta nenhuma forma para tratar valores desconhecidos;

Não apresenta nenhum método de pós-poda.

5

Referências Bibliograficas

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka. (sem data). Obtido 15

de Setembro de 2015, de https://prezi.com/khvcxw-zfot5/copy-of-arvore-de-decisao/


de Setembro de 2015,

http://web.tecnico.ulisboa.pt/ana.freitas/bioinformatics.ath.cx/bioinformatics.ath.cx/

indexf23d.html?id=199


de Setembro de 2015, de http://www.devmedia.com.br/extracao-de-arvores-de-decisao-com-a-

ferramenta-de-data-mining-weka/3388

Pichiliani, M. C. (2008). Conversando Sobre Banco De Dados. Clube de Autores.

6

http://www.devmedia.com.br/extracao-de-arvores-de-decisao-com-a-ferramenta-de-data-mining-weka/3388

http://www.devmedia.com.br/extracao-de-arvores-de-decisao-com-a-ferramenta-de-data-mining-weka/3388

http://web.tecnico.ulisboa.pt/ana.freitas/bioinformatics.ath.cx/bioinformatics.ath.cx/indexf23d.html?id=199

http://web.tecnico.ulisboa.pt/ana.freitas/bioinformatics.ath.cx/bioinformatics.ath.cx/indexf23d.html?id=199

https://prezi.com/khvcxw-zfot5/copy-of-arvore-de-decisao/

Ivete

Documents

Transcript of Ivete