Ivete
-
Upload
eben-alberto -
Category
Documents
-
view
222 -
download
5
description
Transcript of Ivete
Introdução
O presente trabalho de forma breve pretende dar a conhecer o funcionamento de Mineração de
Dados baseado em árvores de decisão. Sendo que os assuntos aqui abordados sigem-se apenas a
aspectos teóricos e não muito práticos.
Este trabalho tem como objectivo fornecer um apanhado geral das principais tarefas e a técnicas
de mineração de dados conhecida como Árvores de Decisão.
Em teoria, uma árvore de decisão é um gráfico em forma de árvore, contendo as decisões a
serem tomadas e suas possíveis conseqüências (riscos, custo, prejuízos), usado para criar um
plano para se alcançar um objetivo. Uma árvore de decisão é um modelo preditivo; Isto é, um
mapeamento de observações sobre um item para conclusões sobre o seu valor-alvo.
Cada nó interno corresponde uma variável; um arco para um nó-filho representa um possível
valor daquela variável. Uma folha representa o valor previsto da variável-alvo, dadas as variáveis
representadas no caminho até ela desde a raiz.
Conceituação de Árvores de decisão (ID3)
Indução de árvore de decisão é tradução da expressão inglesa (ID3 - inductive decision tree).
Uma árvore de decisão é uma representação de uma tabela sob a forma de uma árvore. Tem a
mesma utilidade da tabela de decisão. Trata-se de uma maneira alternativa de expressar as
mesmas regras que são obtidas quando se controi as tabela.
Uma árvore de decisão é uma estrutura de árvore onde:
Cada nó interno é um atributo do banco de dados de amostras, diferente do atributo-
classe;
As folhas são valores do atributo-classe;
Cada ramo ligando um nó-filho e um nó-pai é etiquetado com um valor do atributo
contido no nó-pai. Existem tantos ramos quantos valores possíveis para este atributo;
Um atributo que aparece num nó não pode aparecer em seus nós descendentes.
1
Numa árvore de decisão cada atributo é representado por um nó de decisão, cuja função é testar o
valor desse atributo. Uma classe é representada por um nó folha, que reúne todos os Exemplos
que chegarem a ele depois de satisfazerem os testes dos nós de decisão intermediários. Portanto,
numa Árvore de Decisão, a classificação de um Exemplo desconhecido implica percorrer toda a
árvore a partir de um no raiz, testando atributos em sucessivos nós internos áte chegar a um nó
folha que lhe atribuirá uma classe. O objectivo de uma Árvore de Decisão e retornar uma classe
para um Exemplo desconhecido.
O critério de escolha do melhor atributo para cada iteração no algoritmo ID3 vai definir o ganho
de informação, criado (QUINLAN, 1986), é medido pela significância estatística, que em nosso
caso se expressa pela proporção de "Sim"s e "Não"s no atributo de saida "Partida".
É mais promissor escolher um atributo que tenha associado a ele respostas compostas
unicamente por "Sim"s ou "Não"s porque neste caso podemos colocar um nó folha
correspondente e terminar com as subdivisões. Em outras palavras, quanto mais compacta uma
árvore, menos testes serão necessários para classificar um Exemplo.
Por outro lado, se o conjunto de respostas é composto por uma mistura de "Sim"s e "Não"s,
então faz-se necessário colocar mais um nó interno, com um novo atributo sendo testado,
implicando um crescimento da Árvore de Decisão.
Exemplo de uma árvore de decisão baseado na tabela apresentada, este é um exemplo clássico da
partida de tênis. Supondo que o objectivo é decidir se vou Jogar Ténis. Para tal, há que ter em
conta certos parâmetros do ambiente, como o Aspecto do Céu, a Temperatura, a Humidade e o
Vento. Cada um destes atributos tem vários valores. Por exemplo para a temperatura pode estar
Ameno, Fresco ou Quente. A decisão Sim (ir jogar ténis) ou Não (não ir jogar ténis) é o resultado
da classificação.
2
Ganho de informação
Para se determinar o ganho de informação é necessário que antes do mais se saiba determinar a
entropia, que é o maior dado no cálculo do do ganho de informação.
Entropia é o cálculo do ganho de informacao baseado em uma medida utilizada na teoria da
informação.
A entropia caracteriza a impureza dos dados: em um conjunto de dados, é uma medida da falta
de homogeneidade dos dados de entrada em relacao a sua classificação e a formula para o seu
cálculo pode ser determinada da seguinte forma:
3
Onde
S é o conjunto de exemplo de treino;
p+ é a porção de exemplos positivos;
p- é a porção de exemplos negativos;
O ganho de informação (information gain) define a redução na entropia. Ganho(S,A) significa a
redução esperada na entropia de S, ordenando pelo atributo A. O ganho é dado pela seguinte
equação:
Classificação das árvores de decisão
As árvores de decisão podem ser obtidas de duas formas que caracterizam-se por: árvore de
decisão compacta e árvore de decisão não compacta.
As árvores de decisão compactas são as que a quando da sua construção baseiam-se no meios
inteligentes de análise de modo a fazerem uma estrutura menos complexa enquanto que as não
compactas não seguem esse critério de análise.
O problema que nasce com a construção das árvores de decisão não compactas é o facto das
árvores sofrerem um sobreajuste (overfitting) de modo a atingir um resultado mesmo que não
seje o desejado/ ideal, assim sendo icorre-se ao risco do ajuste da árvore permitir que nós com
ruidos (outliers) e isso pode levar a um resultado incorrecto ou não exaústivo.
4
De modo a resolver o problema de overfitting recorre-se a podagem (pruning). A podagem
consiste em parar de crescer a árvore de decisão em dado momento, antes que ela classifique
perfeitamente o conjunto de treinamento.
A podagem pode ser dada de duas circunstancias. Pode ser usada para parar o crescimento da
árvore mais cedo, chamada de pre podagem ou poda descendente ou pode acontecer com a
árvore já completa, chamada de pós-podagem ou poda ascendente.
O processo de podagem pode ser feito da seguinte maneira:
1 - Percorre a árvore em profundidade.
2 - Para cada no de decisao calcula;
Erro no nó.
Soma dos erros do nó é menor ou igual à soma dos erros dos nós descendentes entao o nó é
transformado em folha.
3 - Se o erro do nó é menor ou igual à soma dos erros dos nós descendentes entao o nó é
transformado em folha.
Vantagens de ID3
Mais simples de entender e de implementar;
É um algoritmo recursivo;
É baseado em busca exaustiva;
Utiliza o Ganho de Informação para selecionar a melhor divisão;
Desvantagens de ID3
O ID3 é que ele só lida com atributos categóricos não-ordinais;
Não apresenta nenhuma forma para tratar valores desconhecidos;
Não apresenta nenhum método de pós-poda.
5
Referências Bibliograficas
Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka. (sem data). Obtido 15
de Setembro de 2015, de https://prezi.com/khvcxw-zfot5/copy-of-arvore-de-decisao/
Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka. (sem data). Obtido 15
de Setembro de 2015,
http://web.tecnico.ulisboa.pt/ana.freitas/bioinformatics.ath.cx/bioinformatics.ath.cx/
indexf23d.html?id=199
Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka. (sem data). Obtido 17
de Setembro de 2015, de http://www.devmedia.com.br/extracao-de-arvores-de-decisao-com-a-
ferramenta-de-data-mining-weka/3388
Pichiliani, M. C. (2008). Conversando Sobre Banco De Dados. Clube de Autores.
6