Ivete
-
Upload
eben-alberto -
Category
Documents
-
view
216 -
download
0
description
Transcript of Ivete
1
Introdução
O presente trabalho de forma breve pretende dar a conhecer o funcionamento de Mineração de
Dados baseado em árvores de decisão. Sendo que os assuntos aqui abordados sigem-se apenas a
aspectos teóricos e não muito práticos.
Este trabalho tem como objectivo fornecer um apanhado geral das principais tarefas e a técnicas
de mineração de dados conhecida como Árvores de Decisão.
Em teoria, uma árvore de decisão é um gráfico em forma de árvore, contendo as decisões a serem
tomadas e suas possíveis conseqüências (riscos, custo, prejuízos), usado para criar um plano para
se alcançar um objetivo. Uma árvore de decisão é um modelo preditivo; Isto é, um mapeamento
de observações sobre um item para conclusões sobre o seu valor-alvo.
Cada nó interno corresponde uma variável; um arco para um nó-filho representa um possível valor
daquela variável. Uma folha representa o valor previsto da variável-alvo, dadas as variáveis
representadas no caminho até ela desde a raiz.
Conceituação de Árvores de decisão (ID3)
Indução de árvore de decisão é tradução da expressão inglesa (ID3 - inductive decision tree).
Uma árvore de decisão é uma representação de uma tabela sob a forma de uma árvore. Tem a
mesma utilidade da tabela de decisão. Trata-se de uma maneira alternativa de expressar as mesmas
regras que são obtidas quando se controi as tabela.
Uma árvore de decisão é uma estrutura de árvore onde:
Cada nó interno é um atributo do banco de dados de amostras, diferente do atributo-classe;
As folhas são valores do atributo-classe;
Cada ramo ligando um nó-filho e um nó-pai é etiquetado com um valor do atributo contido
no nó-pai. Existem tantos ramos quantos valores possíveis para este atributo;
Um atributo que aparece num nó não pode aparecer em seus nós descendentes.
2
Numa árvore de decisão cada atributo é representado por um nó de decisão, cuja função é testar o
valor desse atributo. Uma classe é representada por um nó folha, que reúne todos os Exemplos que
chegarem a ele depois de satisfazerem os testes dos nós de decisão intermediários. Portanto, numa
Árvore de Decisão, a classificação de um Exemplo desconhecido implica percorrer toda a árvore
a partir de um no raiz, testando atributos em sucessivos nós internos áte chegar a um nó folha que
lhe atribuirá uma classe. O objectivo de uma Árvore de Decisão e retornar uma classe para um
Exemplo desconhecido.
O critério de escolha do melhor atributo para cada iteração no algoritmo ID3 vai definir o ganho
de informação, criado (QUINLAN, 1986), é medido pela significância estatística, que em nosso
caso se expressa pela proporção de "Sim"s e "Não"s no atributo de saida "Partida".
É mais promissor escolher um atributo que tenha associado a ele respostas compostas unicamente
por "Sim"s ou "Não"s porque neste caso podemos colocar um nó folha correspondente e terminar
com as subdivisões. Em outras palavras, quanto mais compacta uma árvore, menos testes serão
necessários para classificar um Exemplo.
Por outro lado, se o conjunto de respostas é composto por uma mistura de "Sim"s e "Não"s, então
faz-se necessário colocar mais um nó interno, com um novo atributo sendo testado, implicando
um crescimento da Árvore de Decisão.
Exemplo de uma árvore de decisão baseado na tabela apresentada, este é um exemplo clássico da
partida de tênis. Supondo que o objectivo é decidir se vou Jogar Ténis. Para tal, há que ter em
conta certos parâmetros do ambiente, como o Aspecto do Céu, a Temperatura, a Humidade e o
Vento. Cada um destes atributos tem vários valores. Por exemplo para a temperatura pode estar
Ameno, Fresco ou Quente. A decisão Sim (ir jogar ténis) ou Não (não ir jogar ténis) é o resultado
da classificação.
3
Ganho de informação
Para se determinar o ganho de informação é necessário que antes do mais se saiba determinar a
entropia, que é o maior dado no cálculo do do ganho de informação.
Entropia é o cálculo do ganho de informacao baseado em uma medida utilizada na teoria da
informação.
A entropia caracteriza a impureza dos dados: em um conjunto de dados, é uma medida da falta de
homogeneidade dos dados de entrada em relacao a sua classificação e a formula para o seu cálculo
pode ser determinada da seguinte forma:
4
Onde
S é o conjunto de exemplo de treino;
p+ é a porção de exemplos positivos;
p- é a porção de exemplos negativos;
Você já parou para pensar na quantidade e variedade de dados que geramos e armazenamos a cada dia.pdf
acima representada.
O ganho de informação (information gain) define a redução na entropia. Ganho(S,A) significa a
redução esperada na entropia de S, ordenando pelo atributo A. O ganho é dado pela seguinte
equação:
Classificação das árvores de decisão
As árvores de decisão podem ser obtidas de duas formas que caracterizam-se por: árvore de decisão
compacta e árvore de decisão não compacta.
As árvores de decisão compactas são as que a quando da sua construção baseiam-se no meios
inteligentes de análise de modo a fazerem uma estrutura menos complexa enquanto que as não
compactas não seguem esse critério de análise.
O problema que nasce com a construção das árvores de decisão não compactas é o facto das árvores
sofrerem um sobreajuste (overfitting) de modo a atingir um resultado mesmo que não seje o
5
desejado/ ideal, assim sendo icorre-se ao risco do ajuste da árvore permitir que nós com ruidos
(outliers) e isso pode levar a um resultado incorrecto ou não exaústivo.
De modo a resolver o problema de overfitting recorre-se a podagem (pruning). A podagem consiste
em parar de crescer a árvore de decisão em dado momento, antes que ela classifique perfeitamente
o conjunto de treinamento.
A podagem pode ser dada de duas circunstancias. Pode ser usada para parar o crescimento da
árvore mais cedo, chamada de pre podagem ou poda descendente ou pode acontecer com a árvore
já completa, chamada de pós-podagem ou poda ascendente.
O processo de podagem pode ser feito da seguinte maneira:
1 - Percorre a árvore em profundidade.
2 - Para cada no de decisao calcula;
Erro no nó.
Soma dos erros do nó é menor ou igual à soma dos erros dos nós descendentes entao o nó é
transformado em folha.
3 - Se o erro do nó é menor ou igual à soma dos erros dos nós descendentes entao o nó é
transformado em folha.
Vantagens de ID3
Mais simples de entender e de implementar;
É um algoritmo recursivo;
É baseado em busca exaustiva;
Utiliza o Ganho de Informação para selecionar a melhor divisão;
Desvantagens de ID3
O ID3 é que ele só lida com atributos categóricos não-ordinais;
6
Não apresenta nenhuma forma para tratar valores desconhecidos;
Não apresenta nenhum método de pós-poda.
Referências Bibliograficas
Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka. (sem data). Obtido 15
de Setembro de 2015, de https://prezi.com/khvcxw-zfot5/copy-of-arvore-de-decisao/
Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka. (sem data). Obtido 15
de Setembro de 2015,
http://web.tecnico.ulisboa.pt/ana.freitas/bioinformatics.ath.cx/bioinformatics.ath.cx/indexf23d.ht
ml?id=199
Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka. (sem data). Obtido 17
de Setembro de 2015, de http://www.devmedia.com.br/extracao-de-arvores-de-decisao-com-a-
ferramenta-de-data-mining-weka/3388
Pichiliani, M. C. (2008). Conversando Sobre Banco De Dados. Clube de Autores.