Material Weka

download Material Weka

of 49

  • date post

    25-Jul-2015
  • Category

    Documents

  • view

    98
  • download

    0

Embed Size (px)

Transcript of Material Weka

Algoritmos

Autor:Alisson Patrick Maximino

Centro Universitrio Baro de Mau Curso de Bacharelado em Cincia da Computao

COMPARAO DE ALGORITMOS DE APRENDIZADO DE MQUINA PARA CLASSIFICAO DE PADRES EM UMA BASE DE DADOS MDICOS

Alisson Patrick Maximino

Ribeiro Preto 2007

Alisson Patrick Maximino

COMPARAO DE ALGORITMOS DE APRENDIZADO DE MQUINA PARA CLASSIFICAO DE PADRES EM UMA BASE DE DADOS MDICOS

Monografia apresentada ao Curso de Cincia da Computao do Centro Universitrio Baro de Mau, como parte dos requisitos para obteno do ttulo de Bacharel em Cincia da Computao.

Orientador: Prof. Dr. Paulo Eduardo Ambrsio

Ribeiro Preto 2007

Dedicatria Aos meus pais, minha amada Me Marli, meu amado Pai Vanderlei e minha amada Av Floripes, pessoas maravilhosas, batalhadoras, minha fonte maior de inspirao, cuidaram e doaram incondicionalmente seu sangue e suor em forma de amor e trabalho por mim, a minha grande e maravilhosa companheira Juliana, que me deram apoio e carinho nos momentos mais difceis durante esses anos dedicados aos estudos,

Agradecimentos

Primeiramente Deus, dedico o meu agradecimento maior, porque tm sido tudo em minha vida, o maior responsvel por este grande sonho que se realiza. todos professores(as), que conseguiram transmitir o seu conhecimento, contribuindo para minha sabedoria, e para meu crescimento pessoal e profissional, em especial ao professor Dr. Paulo Ambrsio, pela pacincia e dedicao, e todos aqueles(as) que cruzaram em minha vida, participando de alguma forma construtiva. Aos meus grandes amigos e companheiros, Roger e Flvio, que sempre me incentivaram e proporcionaram momentos de lazer, imprescindveis ao bom andamento desses 4 anos de estudos.

Resumo

A classificao de padres, neste caso, para diversos tipos de patologias, doenas aplicadas ao pulmo, podem ser classificadas por um profissional, como um mdico, onde, atravs de seu vasto conhecimento e estudo, capaz de analisar e identificar uma doena especifica. A partir da rea de estudo de Inteligncia Artificial, e utilizando os conceitos e tcnicas de aprendizado de mquina, no qual, existem diversos tipos de algoritmos de aprendizado de mquina que podem ser utilizados na classificao de padres. Na prtica, difcil saber qual tipo de algoritmo utilizar para cada problema. Os diversos sistemas de aprendizado de mquina possuem caractersticas particulares e comuns que possibilitam sua classificao quanto linguagem de descrio, modo, paradigma e forma de aprendizado utilizado. O objetivo principal desse trabalho realizar um estudo sobre alguns dos principais algoritmos de aprendizado de mquina, dentre eles, algoritmos de induo, de regras de deciso, redes neurais artificiais, algoritmos baseados em mtodos estatsticos, e outros, onde sero realizadas comparaes de desempenho sobre resultados obtidos pelos algoritmos.

Palavras-chave: Aprendizado de mquina, Algoritmos, Minerao de Dados, Base de Dados, Resultados.

Abstract

The pattern classification, in this case, for several kinds of pathologies, lung related diseases may be classified by a physian, where through his or her vast knowledge and study, is capable of analyzing and spotting a specific disease. Starting from the Artificial Intelligence field, and using the concepts and learning techniques of machines, in which, there are several types of learning algorithms of machines that can be used in pattern classification. In

practice, it is hard to know what kind of algorithm to use for each problem. The different learning systems of machines bear particular and common characteristics, which make their classification possible as to description language, manner, paradigm and the learning method used. The main goal of the present study is to carry out a study on some of the principal learning algorithm of machine, among them, induction algorithms, decision rules, artificial neural nets, algorithms based on statistical methods, and others, where performance comparisons will be carried out over the results obtained by algorithms.

Keywords: Learning Machine, Algorithms, Data Mining, Database, Results.

Lista de FigurasFigura 1.1 Hierarquia do aprendizado. ..................................................................................... 16 Figura 2.1 Redes Neurais. ........................................................................................................ 19 Figura 2.2 rvores de Deciso. ................................................................................................ 21 Figura 2.3 Processo KDD......................................................................................................... 24 Figura 2.4 Tela inicial do WEKA............................................................................................. 26 Figura 2.5 Tela do Pr-Processo............................................................................................... 27 Figura 2.6 Tela de Classificao. ............................................................................................. 28 Figura 3.1 Parmetros Clnicos e Parmetros Radiolgicos..................................................... 32 Figura 3.2 Exemplo extrado da base de dados. ....................................................................... 34 Figura 3.3 Grfico em (%) de Acerto com Cross-Validation................................................... 36 Figura 3.4 Grfico em (%) de Erro Absoluto Relativo com Cross-Validation. ....................... 36 Figura 3.5 Grfico em (s) Tempo de Execuo com Cross-Validation.................................... 37 Figura 3.6 Grfico em (%) de Acerto com Leave-One-Out. .................................................... 38 Figura 3.7 Grfico em (%) de Erro Absoluto Relativo com Leave-One-Out........................... 39 Figura 3.8 Grfico em (s) Tempo de Execuo com Leave-One-Out...................................... 40 Figura 3.9 Matriz confuso Redes Neurais (MLP) Cross-Validation. ..................................... 41 Figura 3.10 Matriz Confuso Redes Neurais (MLP) Leave-One-Out...................................... 41 Figura 3.11 Matriz Confuso Redes Neurais (RBF) Cross-Validation. ................................... 42 Figura 3.12 Matriz Confuso Redes Neurais (RBF) Leave-One-Out. ..................................... 42 Figura 3.13 Matriz Confuso C4.5 Cross-Validation............................................................... 43 Figura 3.14 Matriz Confuso C4.5 Leave-One-Out. ................................................................ 43 Figura 3.15 Matriz Confuso ZEROR Cross-Validation. ........................................................ 44 Figura 3.16 Matriz Confuso ZEROR Leave-One-Out............................................................ 44 Figura 3.17 Matriz Confuso ONER Cross-Validation. .......................................................... 45 Figura 3.18 Matriz Confuso ONE Leave-One-Out. ............................................................... 45 Figura 3.19 Matriz Confuso Rede Bayesiana Cross-Validation............................................. 46 Figura 3.20 Matriz Confuso Rede Bayesiana Leave-One-Out. .............................................. 46

Lista de Tabelas

Tabela 1 Estrutura do arquivo ARRF. ...................................................................................... 29 Tabela 2 Relao das patologias investigadas.......................................................................... 30 Tabela 3 (%) de Acerto com Cross-Validation. ....................................................................... 35 Tabela 4 (%) de Erro Absoluto Relativo com Cross-Validation. ............................................. 36 Tabela 5 (s) Tempo de Execuo com Cross-Validation. ........................................................ 37 Tabela 6 (%) de Acerto com Leave-One-Out........................................................................... 38 Tabela 7 (%) de Erro Absoluto Relativo com Leave-One-Out. ............................................... 39 Tabela 8 (s) Tempo de Execuo com Leave-One-Out. .......................................................... 39

Lista de SiglasAM: Aprendizado de Mquina IA: Inteligncia Artificial KDD: Knowledge Discovery in Databases GPL: General Public Licence WEKA: Waikato Environment for Knowledge Analysis

Sumrio

INTRODUO........................................................................................................................ 25 1 APRENDIZADO.............................................................................................................. 13 1.1 A HIERARQUIA DE APRENDIZADO.................................................................. 13 1.2 PARADIGMAS DE APRENDIZADO .................................................................... 14 1.3 TCNICAS DE VALIDAO................................................................................ 16 1.3.1 CROSS-VALIDATION ................................................................................... 16 1.3.2 LEAVE-ONE-OUT .......................................................................................... 17 2 APRENDIZADO DE MQUINA ................................................................................... 18 2.1 REDES NEURAIS ................................................................................................... 18 2.2 RVORES DE DECISO....................................................................................... 20 2.3 C4.5 .......................................................................................................................... 21 2.4 ZERO RULE (ZEROR) ........................................................................................... 22 2.5 ONE RULE (ONER) ................................................................................................ 22 2.6 RE