Você Já Parou Para Pensar Na Quantidade e Variedade de Dados Que Geramos e Armazenamos a Cada Dia

download Você Já Parou Para Pensar Na Quantidade e Variedade de Dados Que Geramos e Armazenamos a Cada Dia

of 6

description

Trabalho

Transcript of Você Já Parou Para Pensar Na Quantidade e Variedade de Dados Que Geramos e Armazenamos a Cada Dia

  • 1

    Introduo

    comum ouvirmos empresrios preocupados com as bolsas de valores, a cincia com as doenas,

    suas pesquisas e avanos tecnolgicos, entre outras situaes. A flexibilidade de resposta dada a

    essas situaes deve-se a informaes teis e no evidentes que residem em grandes bases de

    dados. Estas informaes podem ser automaticamente extraidas atravs da Minerao de Dados e

    interpretadas de modo a constituir conhecimento especializado e til para a tomada de deciso.

    Sendo assim comea uma breve abordagem de Minerao de Dados atravs de rvores de Deciso

    (ID3).

    O que uma rvore de deciso?

    comum ao pesquisar em diferentes literaturas deparar-se com o termo ID-3 sendo apresentado

    de duas formas diferentes (Iteractive Dichotomiser 3 ou Induction Decision Tree que em traduo

    literal refere-se a induo de rvores de deciso).

    Segundo (Pichiliani,(2008) rvore de deciso uma tcnica que, a partir de uma massa de dados

    (Data Mart e Data Warehouse), cria e organiza regras de classifio e deciso em formato de

    diagrama de rvores, que iro classificar suas observaes ou predizer resultados futuros. Se seus

    dados estiverem divididos em classes dicotmicas (busca entre duas altenativas), por exemplo,

    infectados contra no-intectados uma rvore de deciso pode ser construida para criar regras que

    classifiquem casos j existentes ou casos novos, com preciso.

    Comea com um nico grupo que rene todos os casos em estudo. Na medida em que a rvore vai

    se expandindo, esta base dividida em mdulos que representam categorias das variveis

    analisadas. Cada galho da rvore formado por esses ndulos que vo se abrindo em subgrupos

    mutuamente exclusivos.Cada ndulo e cada galho apresentam uma proporo de obteno da

    resposta em estudo.

    A titlo de exemplo de modo a elusidar a explicao, abaixo apresenta-se uma tabela e a respectiva

    rvore de deciso, do clssico exemplo da partida de tnis baseada no dia, temperatura, umidade e

    vento de modo a se apurar se a partida poder ou no ocorrer. Os maiores detalhes em relao a

    criaco da rvore de deciso sero abordados ao longo do presente trabalho.

  • 2

    Tabela do Tempo

    Dia Temperatura Umidade Vento Partida

    Ensolarado Elevada Alta Falso No

    Ensolarado Elevada Alta Verdadeiro No

    Nublado Elevada Alta Falso Sim

    Chuvoso Amena Alta Falso Sim

    Chuvoso Baixa Normal Falso Sim

    Chuvoso Baixa Normal Verdadeiro No

    Nublado Baixa Normal Verdadeiro Sim

    Ensolarado Amena Alta Falso No

    Ensolarado Baixa Normal Falso Sim

    Chuvoso Amena Normal Falso Sim

    Ensolarado Amena Normal Verdadeiro Sim

    Nublado Amena Alta Verdadeiro Sim

    Nublado Elevada Normal Falso Sim

    Chuvoso Amena Alta Verdadeiro No

    Representao grfica da rvore de deciso

  • 3

    As rvores de deciso podem ser subdivididas em duas categorias que so: rvore de deciso

    compacta e no compacta. A primeira categoria de rvores referente a construo de arvores

    baseando-se em tecnicas de melhor desempenho e esconha de melhor com menos passos, enquanto

    que a segunda categoria no segue um princpio exaustivo, ou seja, no procura especificar que

    caminhos levam para a soluo do problema, limitando-se apenas a resolve-lo.

    Sendo que o foco de presente texto tratar da primeira categoria (rvore de deciso compacta)

    pois trata-se de uma categoria de rvore digamos que intelectual em sua criao, como podemos

    notar na estrutura da rvore acima representada.

    Como estamos interessados em construir uma rvore compacta, dentre os quarto atributos

    candidatos para n raiz, o atributo Dia parece o mais promissor porque dentre as trs arestas que

    teremos de colocar neste n (Ensolarado, Nublado e Chuvoso), a aresta para Nublado tem

    todos seus elementos pertencentes mesma classe Sim e, portanto, esta aresta da rvore de

    Deciso temina aqui com um n folha Sim.

    Visto que as ramificaes dos valores Ensolarado e Chuvoso h elementos tanto da classe

    Sim como da classe No, outro atributo deve ser escolhido para cada ramificao, e assim

    sucessivamente deve ocorrer at que todos os elementos de um ramo pertenam a uma mesma

    classe. Como restam os atributos Temperatura, Humidade e Vento.

    Aps as combinaes terem sido testadas percebeu-se que Humidade parece ser a escolha mais

    promissora porque todos os elementos com Humidade = Alta correspondem classe No e

    todos os elementos de Humidade = Normal pertencem classe Sim. Portanto, temos mais dois

    ns folhas aqui, favorecendo a construo de uma rvore mais compacta.

    Agora restando apenas duas altenativas Temperatura e Vento pode-se efectuar algumas

    combinaes para descobrir a mais interessante. Visto que a tabela acima mostrou o atributo

    Vento o mais indicado para esta iterao porque todos os elementos de Vento = Verdadeiro

    esto classificados como Sim e todos os elementos de Vento = Verdadeiro esto classificados

    como No. Portanto estas duas ramificaes da rvore de Deciso terminam com um n folha

    cada. Nesta iterao o algoritmo termina, pois todos os Exemplos da tabela foram avaliados e

    classificados em suas respectivas classes. Porm algumas consideraes podem ser feitas.

  • 4

    Como determinar o Ganho de informao?

    Por trs do critrio de seleco de atributos aqui apresentado de forma intuitiva, h uma slida

    justificao matemtica introduzida por (QUINLAN, 1986), baseada na Teoria das Informao de

    Claude Shannon, capaz de avaliar a quantidade de informao do melhor atributo dentre os

    candidatos para teste em um determinado n.

    O ganho de informao mede a eficcia, ou eficincia, de um atributo em classificar os dados de

    treino, ou seja, a reduo esperada na entropia causada por particionar os exemplos de acordo

    com este atributo.

    A entropia um dado importante para calcular o ganho de informao. A Entropia uma medida

    que caracteriza a aleatoriedade (impureza) de uma coleco arbitrria de exemplos.

    De acordo com Shannon a entropia pode ser determinada atravs da seguinte frmula:

    ( ) =

    =1

    2

    Onde a proporo de Sims e Nos associados a um atributo (o ganho de informao ou

    entropia medida em bits, ou fraces de bits). Para o caso da tabela acima representada temos

    duas classes (Sim e No), sendo que dos 14 exemplos, 9 pertencem classe Sim e 5 classe

    No. Portanto, o ganho de informao associado a tabela pode ser calculada da seguinte forma:

    () = (9

    142

    9

    14) + (

    5

    142

    5

    14) = 0,94

    Aps esse clculo agora pode-se efectuar o grau de impureza do atributo Dia. Esse atributo esta

    subdividido em trs alternativas possveis, com as seguintes propores de Sims e No:

    Ensolarado (2 Sim / 3No), Nublado (4 Sim / 0 No) e Chuvoso (3 Sim/ 2

    No). Portanto, seu grau de impuresa ,

    () = (2

    52

    2

    5) + (

    3

    52

    3

    5) = 0,97

    () = (4

    42

    4

    4) + (

    0

    42

    0

    4) = 0,00

    () = (3

    52

    3

    5) + (

    2

    52

    2

    5) = 0,97

  • 5

    Fazendo a soma ponderada de cada uma dessas altenativas sobre os 14 Exemplos,

    resulta,

    () = 0,97 5

    14+ 0

    4

    14+

    5

    14= 0,69

    Aplicando-se o mesmo raciocnio para os atributos Temperatura, Humidade e Vento obtm-

    se os seguintes valores,

    () = 0,91

    () = 0,79

    () = 0,89

    Aps a determinao da entropia recorre-se a seguinte frmula para determinar o valor do Ganho

    de Informao:

    Onde: S o conjunto de exemplo de treino;

    O ganho obtido seguindo a frmula acima e os dados da tabela acima descrita so os

    seguintes seguintes;

    Ganho (S, Umidade) = 0,057; Ganho (S, Vento) = 0,048; Ganho (S, Temperatura) = 0,029

    Ganho (S, Tempo) = 0,247

    Portanto, dos quatro atributos possiveis na primeira iterao, o atributo Dia que tem o grau

    mais baixo de impureza, e, portanto, o mais promissor para construir uma rvore de Deciso

    Compacta.

    H muitos calculos matematicos envolvido que no foram mencionados, e outros detalhes

    importantes do algoritmo ID3 precisariam ser abordados se nossa inteno fosse explicar seu

  • 6

    funcionamento. Porm o que pretendemos aqui apenas dar uma ideia terica e clara para que ao

    nos depararmos com uma ferramenta que implemente este algoritmo se possvel entender o

    resultado de seus clculos.

    Overfitting e Pruning

    Sem necessariamente entrar em muitos detalhes sobre as rvores no compactas, ao trabalhar com

    elas podemos nos deparar em situaes que precisa-se tratar a rvore de modo a torna-la mais

    simples de interpretar. A forma de superajustar os ramos de uma rvore de Deciso de modo a

    atingir o objectivo desejado denomina-se Overfitting. Porm ao optar-se por superajutar a rvore

    incorre-se ao risco deste conjunto de treinamento incluir ruido ou outliers o que pode levar a

    estrutura resultante da rvore de Deciso a no reflectir s relaes essenciais entre os atributos

    da Base de dados.

    Para evitar com que a rvore sofra Overfitting muitos algoritmos se valem da tcnica conhecida

    como Poda ou pruning, que consiste em eliminar alguns ramos da rvore de Deciso com base

    em medidas estatisticas, deste modo constroi-se uma rvore clara e de fcil interpretao.

    Referncias Bibliograficas

    Extrao de rvores de Deciso com a Ferramenta de Data Mining Weka. (sem data). Obtido 12 de

    Setembro de 2015, de http://www.devmedia.com.br/extracao-de-arvores-de-decisao-com-a-

    ferramenta-de-data-mining-weka/3388

    Extrao de rvores de Deciso com a Ferramenta de Data Mining Weka. (sem data). Obtido 22 de

    Setembro de 2015, http://www.dct.ufms.br/~mzanusso/DataMining/pdfs/aula2.pdf

    http://web.tecnico.ulisboa.pt/ana.freitas/bioinformatics.ath.cx/bioinformatics.ath.cx/indexf23d.html?id

    =199

    Brito, P. Q. (1999). O futuro da Internet: estado da arte e tendncias de evoluo. Centro Atlantico.

    Quilici-Gonzalez, J. A., & Zampirolli, F. de A. (2015). Sistemas Inteligentes e Minerao de Dados.