Você Já Parou Para Pensar Na Quantidade e Variedade de Dados Que Geramos e Armazenamos a Cada Dia

download Você Já Parou Para Pensar Na Quantidade e Variedade de Dados Que Geramos e Armazenamos a Cada Dia

of 7

description

OK

Transcript of Você Já Parou Para Pensar Na Quantidade e Variedade de Dados Que Geramos e Armazenamos a Cada Dia

Introduo comum ouvirmos empresrios preocupados com as bolsas de valores, a cincia com as doenas, suas pesquisas e avanos tecnolgicos, entre outras situaes. A flexibilidade de resposta dada a essas situaes deve-se a informaes teis e no evidentes que residem em grandes bases de dados. Estas informaes podem ser automaticamente extraidas atravs da Minerao de Dados e interpretadas de modo a constituir conhecimento especializado e til para a tomada de deciso. Sendo assim comea uma breve abordagem de Minerao de Dados atravs de rvores de Deciso (ID3).O que uma rvore de deciso? comum ao pesquisar em diferentes literaturas deparar-se com o termo ID-3 sendo apresentado de duas formas diferentes (Iteractive Dichotomiser 3 ou Induction Decision Tree que em traduo literal refere-se a induo de rvores de deciso).Segundo (Pichiliani,(2008) rvore de deciso uma tcnica que, a partir de uma massa de dados (Data Mart e Data Warehouse), cria e organiza regras de classifio e deciso em formato de diagrama de rvores, que iro classificar suas observaes ou predizer resultados futuros. Se seus dados estiverem divididos em classes dicotmicas (busca entre duas altenativas), por exemplo, infectados contra no-intectados uma rvore de deciso pode ser construida para criar regras que classifiquem casos j existentes ou casos novos, com preciso.Comea com um nico grupo que rene todos os casos em estudo. Na medida em que a rvore vai se expandindo, esta base dividida em mdulos que representam categorias das variveis analisadas. Cada galho da rvore formado por esses ndulos que vo se abrindo em subgrupos mutuamente exclusivos.Cada ndulo e cada galho apresentam uma proporo de obteno da resposta em estudo. A titlo de exemplo de modo a elusidar a explicao, abaixo apresenta-se uma tabela e a respectiva rvore de deciso, do clssico exemplo da partida de tnis baseada no dia, temperatura, umidade e vento de modo a se apurar se a partida poder ou no ocorrer. Os maiores detalhes em relao a criaco da rvore de deciso sero abordados ao longo do presente trabalho.Tabela do TempoDiaTemperaturaUmidadeVentoPartida

EnsolaradoElevadaAltaFalsoNo

EnsolaradoElevadaAltaVerdadeiroNo

NubladoElevadaAltaFalsoSim

ChuvosoAmenaAltaFalsoSim

ChuvosoBaixaNormalFalsoSim

ChuvosoBaixaNormalVerdadeiroNo

NubladoBaixaNormalVerdadeiroSim

EnsolaradoAmenaAltaFalsoNo

EnsolaradoBaixaNormalFalsoSim

ChuvosoAmenaNormalFalsoSim

EnsolaradoAmenaNormalVerdadeiroSim

NubladoAmenaAltaVerdadeiroSim

NubladoElevadaNormalFalsoSim

ChuvosoAmenaAltaVerdadeiroNo

Representao grfica da rvore de deciso

As rvores de deciso podem ser subdivididas em duas categorias que so: rvore de deciso compacta e no compacta. A primeira categoria de rvores referente a construo de arvores baseando-se em tecnicas de melhor desempenho e esconha de melhor com menos passos, enquanto que a segunda categoria no segue um princpio exaustivo, ou seja, no procura especificar que caminhos levam para a soluo do problema, limitando-se apenas a resolve-lo.Sendo que o foco de presente texto tratar da primeira categoria (rvore de deciso compacta) pois trata-se de uma categoria de rvore digamos que intelectual em sua criao, como podemos notar na estrutura da rvore acima representada.Como estamos interessados em construir uma rvore compacta, dentre os quarto atributos candidatos para n raiz, o atributo Dia parece o mais promissor porque dentre as trs arestas que teremos de colocar neste n (Ensolarado, Nublado e Chuvoso), a aresta para Nublado tem todos seus elementos pertencentes mesma classe Sim e, portanto, esta aresta da rvore de Deciso temina aqui com um n folha Sim.Visto que as ramificaes dos valores Ensolarado e Chuvoso h elementos tanto da classe Sim como da classe No, outro atributo deve ser escolhido para cada ramificao, e assim sucessivamente deve ocorrer at que todos os elementos de um ramo pertenam a uma mesma classe. Como restam os atributos Temperatura, Humidade e Vento.Aps as combinaes terem sido testadas percebeu-se que Humidade parece ser a escolha mais promissora porque todos os elementos com Humidade = Alta correspondem classe No e todos os elementos de Humidade = Normal pertencem classe Sim. Portanto, temos mais dois ns folhas aqui, favorecendo a construo de uma rvore mais compacta.Agora restando apenas duas altenativas Temperatura e Vento pode-se efectuar algumas combinaes para descobrir a mais interessante. Visto que a tabela acima mostrou o atributo Vento o mais indicado para esta iterao porque todos os elementos de Vento = Verdadeiro esto classificados como Sim e todos os elementos de Vento = Verdadeiro esto classificados como No. Portanto estas duas ramificaes da rvore de Deciso terminam com um n folha cada. Nesta iterao o algoritmo termina, pois todos os Exemplos da tabela foram avaliados e classificados em suas respectivas classes. Porm algumas consideraes podem ser feitas.

Como determinar o Ganho de informao?Por trs do critrio de seleco de atributos aqui apresentado de forma intuitiva, h uma slida justificao matemtica introduzida por (QUINLAN, 1986), baseada na Teoria das Informao de Claude Shannon, capaz de avaliar a quantidade de informao do melhor atributo dentre os candidatos para teste em um determinado n.O ganho de informao mede a eficcia, ou eficincia, de um atributo em classificar os dados de treino, ou seja, a reduo esperada na entropia causada por particionar os exemplos de acordo com este atributo.A entropia um dado importante para calcular o ganho de informao. A Entropia uma medida que caracteriza a aleatoriedade (impureza) de uma coleco arbitrria de exemplos. De acordo com Shannon a entropia pode ser determinada atravs da seguinte frmula:

Onde a proporo de Sims e Nos associados a um atributo (o ganho de informao ou entropia medida em bits, ou fraces de bits). Para o caso da tabela acima representada temos duas classes (Sim e No), sendo que dos 14 exemplos, 9 pertencem classe Sim e 5 classe No. Portanto, o ganho de informao associado a tabela pode ser calculada da seguinte forma:

Aps esse clculo agora pode-se efectuar o grau de impureza do atributo Dia. Esse atributo esta subdividido em trs alternativas possveis, com as seguintes propores de Sims e No: Ensolarado (2 Sim / 3No), Nublado (4 Sim / 0 No) e Chuvoso (3 Sim/ 2 No). Portanto, seu grau de impuresa ,

Fazendo a soma ponderada de cada uma dessas altenativas sobre os 14 Exemplos, resulta,

Aplicando-se o mesmo raciocnio para os atributos Temperatura, Humidade e Vento obtm-se os seguintes valores,

Aps a determinao da entropia recorre-se a seguinte frmula para determinar o valor do Ganho de Informao:

Onde: S o conjunto de exemplo de treino;O ganho obtido seguindo a frmula acima e os dados da tabela acima descrita so os seguintes seguintes;Ganho (S, Umidade) = 0,057; Ganho (S, Vento) = 0,048; Ganho (S, Temperatura) = 0,029Ganho (S, Tempo) = 0,247

Portanto, dos quatro atributos possiveis na primeira iterao, o atributo Dia que tem o grau mais baixo de impureza, e, portanto, o mais promissor para construir uma rvore de Deciso Compacta.H muitos calculos matematicos envolvido que no foram mencionados, e outros detalhes importantes do algoritmo ID3 precisariam ser abordados se nossa inteno fosse explicar seu funcionamento. Porm o que pretendemos aqui apenas dar uma ideia terica e clara para que ao nos depararmos com uma ferramenta que implemente este algoritmo se possvel entender o resultado de seus clculos.

Overfitting e PruningSem necessariamente entrar em muitos detalhes sobre as rvores no compactas, ao trabalhar com elas podemos nos deparar em situaes que precisa-se tratar a rvore de modo a torna-la mais simples de interpretar. A forma de superajustar os ramos de uma rvore de Deciso de modo a atingir o objectivo desejado denomina-se Overfitting. Porm ao optar-se por superajutar a rvore incorre-se ao risco deste conjunto de treinamento incluir ruido ou outliers o que pode levar a estrutura resultante da rvore de Deciso a no reflectir s relaes essenciais entre os atributos da Base de dados. Para evitar com que a rvore sofra Overfitting muitos algoritmos se valem da tcnica conhecida como Poda ou pruning, que consiste em eliminar alguns ramos da rvore de Deciso com base em medidas estatisticas, deste modo constroi-se uma rvore clara e de fcil interpretao.

Referncias BibliograficasExtrao de rvores de Deciso com a Ferramenta de Data Mining Weka. (sem data). Obtido 12 de Setembro de 2015, de http://www.devmedia.com.br/extracao-de-arvores-de-decisao-com-a-ferramenta-de-data-mining-weka/3388Extrao de rvores de Deciso com a Ferramenta de Data Mining Weka. (sem data). Obtido 22 de Setembro de 2015, http://www.dct.ufms.br/~mzanusso/DataMining/pdfs/aula2.pdfhttp://web.tecnico.ulisboa.pt/ana.freitas/bioinformatics.ath.cx/bioinformatics.ath.cx/indexf23d.html?id=199Brito, P. Q. (1999). O futuro da Internet: estado da arte e tendncias de evoluo. Centro Atlantico.Quilici-Gonzalez, J. A., & Zampirolli, F. de A. (2015). Sistemas Inteligentes e Minerao de Dados.2