TCCII - Romeu Cestaro - 2006-1 - Sistemas de Informação

download TCCII - Romeu Cestaro - 2006-1 - Sistemas de Informação

of 94

Transcript of TCCII - Romeu Cestaro - 2006-1 - Sistemas de Informação

ROMEU CESTARO

MINERAO DE DADOS APLICADA IDENTIFICAO DE ALUNOS PROPENSOS EVASO DO CEULJI/ULBRA DE JI-PARAN/RO

Ji-Paran 2006

ROMEU CESTARO

MINERAO DE DADOS APLICADA IDENTIFICAO DE ALUNOS PROPENSOS EVASO DO CEULJI/ULBRA DE JI-PARAN/RO

Trabalho apresentado ao Centro Universitrio Luterano de Ji-Paran CEULJI, como requisito para obteno de grau de Bacharel no curso de Sistemas de Informao, sob orientao da professora Mestre Letcia Carvalho Pivetta.

Ji-Paran 2006

Cestaro, Romeu C422m Minerao de dados aplicada identificao de alunos propensos evaso do CEULJI/ULBRA de Ji-Paran/RO. / Cestaro Romeu. Ji-Paran : ULBRA, 2006 92. : il. ; 30cm Trabalho de Concluso de Curso TCC (Graduao) Centro Universitrio Luterano de Ji-Paran ULBRA, Ji-Paran, 2006. 1 Sistemas de Informao. 2 Minerao de Dados. 3 Inteligncia Artificial. 4 Tcnica de Minerao de Dados. I. Autor II. Ttulo CDU 681.3: 007.52

ROMEU CESTARO

MINERAO DE DADOS APLICADA IDENTIFICAO DE ALUNOS PROPENSOS EVASO DO CEULJI/ULBRA DE JI-PARAN/RO

AVALIADORES

______________________________________________________ - ___________________ Prof. M.Sc. Letcia Carvalho Pivetta (Orientadora) Nota

______________________________________________________ - ___________________ Prof. M.Sc.Willian Bolzan dos Santos Nota

______________________________________________________ - ___________________ Prof. M.Sc. Milcades Alves de Almeida Nota

Ji-Paran 2006

Dedico a Deus, pela fora que mesmo eu desconhecia.

Agradeo a minha famlia, no s pelo apoio financeiro, mas tambm pela motivao que, em muitos momentos, infelizmente, eu no soube notar e/ou apreciar; aos meus amigos verdadeiros, em especial os que estiveram ao meu lado todos os momentos: Ilma Fausto, Hildeleidy Moreno, Fabiana Wensing, Lisiane Nunes e Fbio Pereira (sem contar muitos outros colegas de curso que foram amveis e gentis comigo, os quais no citarei aqui, sob pena de esquecer alguns); professora Letcia, que sempre me transmitiu segurana durante os anos de Faculdade no a toa a escolhi para ser minha Orientadora; e, por fim, agradeo a companhia e a amizade da galera do nibus (em especial, Gracinha, Elaine, Ione Teles, Cleide e tantos outros).

Estamos afogados em informao, mas morrendo de fome por conhecimento (John Naisbett).

RESUMO

O objetivo do presente trabalho a construo de um sistema inteligente que seja capaz de identificar alunos propensos evaso, realizando um estudo de caso no mbito do curso de Sistemas de Informao do CEULJI/ULBRA de Ji-Paran/RO. Para tanto, alm de pesquisas bibliogrficas sobre assuntos relacionados, tais como Inteligncia Artificial e Minerao de Dados e da realizao do estudo de caso real, tambm foi realizada uma aplicao simulada, com o objetivo de complementar os argumentos levantados no referido estudo de caso. A metodologia utilizada baseada nos processos de Minerao de Dados (identificao do problema, pr-processamento, extrao de padres, ps-processamento e a utilizao do conhecimento). O cumprimento de todos os processos citados foi marcado por uma srie de problemas que acabaram por definir os rumos do presente trabalho, entretanto, a Minerao de Dados revelou-se uma tcnica inteligente facilitadora do processo de anlise e busca de padres dentro de conjuntos de dados; a realizao das etapas do processo de Minerao de Dados na busca de padres nos dados dos alunos do curso de Sistemas de Informao do CEULJI/ULBRA gerou bons resultados, classificando os exemplos de alunos corretamente (cerca de 80% no estudo de caso real e 100% na aplicao simulada) como formados ou evadidos, e tambm trouxe tona alguns pontos com relao aos dados de alunos e ao desempenho do sistema utilizado pela instituio que devem ser considerados e/ou melhorados (com relao a dados de alunos que deveriam ser armazenados e melhoria de acesso aos dados do sistema utilizado). Palavras-chaves: Evaso na Universidade, Inteligncia Artificial, Minerao de Dados.

ABSTRACT

The goal of this work is the development of an intelligent system capable to identify students that have propensity to be dropouts, making a case study in the course of Information Systems from CEULJI/ULBRA in Ji-Paran/RO. Besides bibliographic researches on related topics, such as Artificial Intelligence and Data Mining and the realization of the real case study, it was also made a simulated application, aiming to complement the arguments from the referred case study. The methodology used is based on the processes of Data Mining (problem identification, pre-processing, pattern extraction, post-processing and the knowledge utilization). The realization of all the mentioned processes revealed a range of problems that ended up defining the directions of this work, however, the Data Mining revealed itself as an intelligent technique that makes the process of analysis and search of patterns from data sets become easier; the realization of the processes of Data Mining in searching of patterns from the dataset of the students of the course of Information System from CEULJI/ULBRA generated good results, classifying the instances of students correctly (about 80% in the real case study and 100% in the simulated application), and also brought out some points related to the students data and the performance of the software system used by the institution that must be considered and/or improved (related to the students data that should be stored and the improving of the data access from the used software system). Key-words: Artificial Intelligence, Data Mining, Evasion in University.

SUMRIO

LISTA DE FIGURAS ......................................................................................................................................... 10 LISTA DE TABELAS......................................................................................................................................... 11 LISTA DE QUADROS........................................................................................................................................ 12 LISTA DE SIGLAS E ABREVIATURAS ........................................................................................................ 13 INTRODUO ................................................................................................................................................... 14 1 MINERAO DE DADOS .......................................................................................................................... 16 1.1 DADOS, INFORMAO E CONHECIMENTO .................................................................................................. 17 1.2 PROCESSOS DE MINERAO DE DADOS .................................................................................................... 18 1.2.1 Identificao do problema ............................................................................................................... 19 1.2.2 Pr-processamento .......................................................................................................................... 20 1.2.3 Extrao de Padres........................................................................................................................ 22 1.2.4 Ps-processamento .......................................................................................................................... 23 1.3 TAREFAS DE MINERAO DE DADOS ........................................................................................................ 24 1.4 TCNICAS DE MINERAO DE DADOS ...................................................................................................... 26 1.4.1 Escolha da Tcnica de Minerao de Dados................................................................................... 28 1.5 TECNOLOGIAS DE SUPORTE MINERAO DE DADOS ............................................................................. 31 1.5.1 Aprendizado de Mquina ................................................................................................................. 31 1.5.1.1 Avaliao de algoritmos ............................................................................................................... 36 1.5.1.2 Avaliao de predio numrica .................................................................................................. 37 1.5.2 Ferramentas de Minerao de Dados.............................................................................................. 38 1.5.2.1 Ferramenta Weka.......................................................................................................................... 40 1.5.2.1.1 O formato ARFF ........................................................................................................................ 44 2 ESTUDO DE CASO ...................................................................................................................................... 47 2.1 - IDENTIFICAO DO PROBLEMA .................................................................................................................. 47 2.2 PR-PROCESSAMENTO............................................................................................................................... 49 2.3 EXTRAO DE PADRES ........................................................................................................................... 49 2.4 PS-PROCESSAMENTO............................................................................................................................... 50 2.4.1 Desempenho sobre o conjunto de treinamento ................................................................................ 52 2.4.2 Desempenho sobre o conjunto de teste ............................................................................................ 53 2.4.3 Definio do perfil dos alunos evasores .......................................................................................... 56 2.5 CONSIDERAES SOBRE O ESTUDO DE CASO ............................................................................................. 56 3 APLICAO SIMULADA .......................................................................................................................... 57 3.1 DESEMPENHO SOBRE O CONJUNTO DE TREINAMENTO ............................................................................... 59 3.2 DESEMPENHO SOBRE O CONJUNTO DE TESTE............................................................................................. 61 3.3 DEFINIO DO PERFIL DOS ALUNOS EVASORES NUM CENRIO HIPOTTICO .............................................. 63

3.4 CONSIDERAES SOBRE A APLICAO SIMULADA .................................................................................... 63 CONCLUSO ..................................................................................................................................................... 65 REFERNCIAS .................................................................................................................................................. 68 ANEXOS .............................................................................................................................................................. 69

LISTA DE FIGURAS

Fig.1: Etapas do processo de Minerao de Dados....................................................................................... Fig.2: Tarefas de Minerao de Dados......................................................................................................... Fig.3: Ferramenta WEKA verso 3.4.7........................................................................................................ Fig.4: Mdulo WEKA Knowledge Explorer Fig.5: Mdulo WEKA Experiment Environment. Fig.6: Mdulo WEKA KnowledgeFlow Environment. Fig.7: Mdulo WEKA SimpleCLI Fig.8: Arquivo ARFF para dados sobre clima.. Fig.9: Desempenho dos classificadores Fig.10: Desempenho dos classificadores (aplicao simulada)....................................................................

19 22 40 41 42 43 43 45 51 58

LISTA DE TABELAS

Tabela 1: Dados, informaes, conhecimento.. Tabela 2: Tarefas realizadas por tcnicas de Minerao de Dados.............................................................. Tabela 3: Tcnicas de Minerao de Dados. Tabela 4: Caractersticas de dados Tabela 5: Conjunto de exemplos no formato atributo-valor. Tabela 6: Matriz de Confuso de um classificador... Tabela 7: Matriz de Confuso para a classificao com duas classes.......................................................... Tabela 8: Medidas de desempenho para predio numrica (p para valores preditos e a para valores atuais)............................................................................................................................................................ Tabela 9: Algumas ferramentas para Minerao de Dados.......................................................................... Tabela 10: Atributos extrados na coleta de dados... Tabela 11: Atributos para aplicao simulada..

18 25 28 30 34 34 35 38 39 48 57

LISTA DE QUADROS

Quadro 1: Sada do classificador KSTAR sobre o conjunto de treinamento................................................ Quadro 2: Sada do classificador IB1 sobre o conjunto de treinamento....................................................... Quadro 3: Sada do classificador IBK sobre o conjunto de treinamento...................................................... Quadro 4: Sada do classificador KSTAR sobre o conjunto de teste........................................................... Quadro 5: Sada do classificador IB1 sobre o conjunto de teste................................................................... Quadro 6: Sada do classificador IBK sobre o conjunto de teste.................................................................. Quadro 7: Sada do classificador KSTAR sobre o conjunto de treinamento (aplicao simulada)............. Quadro 8: Sada do classificador IB1 sobre o conjunto de treinamento (aplicao simulada)..................... Quadro 9: Sada do classificador IBK sobre o conjunto de treinamento (aplicao simulada).................... Quadro 10: Sada do classificador KSTAR sobre o conjunto de teste (aplicao simulada)....................... Quadro 11: Sada do classificador IB1 sobre o conjunto de teste (aplicao simulada).............................. Quadro 12: Sada do classificador IBK sobre o conjunto de teste (aplicao simulada).............................

52 52 53 54 54 55 59 60 60 61 62 62

LISTA DE SIGLAS E ABREVIATURAS

ARFF CSV IB1 IBK KDD OLAP SimpleCLI

Attribute-Relation Format File Comma separated value Instance-based (1 nearest neighbor) Instance-based (K nearest neighbor) Knowledge discovery in database On-line Analytical Processing Simple Command Line

14

INTRODUO

O uso de computadores nas mais diversas reas, e com os mais diversos propsitos, vem crescendo nos ltimos tempos. Conseqentemente, a quantidade de dados produzida pelos sistemas e seus respectivos usurios, segundo Frank e Witten (2000), parece crescer ininterruptamente. Aplicaes baseadas em Inteligncia Artificial so cada vez mais utilizadas como ferramenta no processo decisrio nas organizaes. Dentre as vrias reas da Inteligncia Artificial, destaca-se a Minerao de Dados, definida basicamente por Frank e Witten (2000) como o processo de descobrir padres em dados; a Minerao de Dados, ento, trata de resolver problemas pela anlise de dados j presente em base de dados, que por sinal no carece de matria-prima, tendo visto o crescimento iminente do volume de dados produzidos mundialmente, fato anteriormente mencionado. De acordo com Amo (2004), a Minerao de Dados um ramo computacional que surgiu nos anos 80, com a preocupao de vrias empresas com o imenso volume de dados informticos estocados e inutilizados dentro da empresa. Assim, a Minerao de Dados seria responsvel por minerar estes dados e buscar padres interessantes, capazes de responder a perguntas capazes de suprir as necessidades atuais de grandes empresas. Frank e Witten (2000) destacam que a Minerao de Dados abrange uma extensa gama de aplicaes, tais como: decises envolvendo julgamento, como o aceite ou a recusa de

15

um candidato a um emprstimo qualquer; monitoramento de imagens de satlite; diagnstico; marketing; e tantas outras. Tendo observado a extensa abrangncia da Minerao de Dados, percebeu-se a possibilidade da aplicao da mesma no combate evaso escolar, que configura um problema grave, observado j h algum tempo, recorrente em todas as modalidades de ensino no pas, inclusive dentro do Ensino Superior, tanto pblico quanto privado. Conforme pode ser observado no anexo 1, contido no presente trabalho, so vrios os motivos que ocasionam a evaso, como a repetncia, decepo com o curso escolhido, (des)prestgio da profisso, dificuldade na conciliao da jornada de trabalho com o horrio escolar, entre tantos outros. O objetivo do presente trabalho utilizar a Minerao de Dados para a construo de um sistema inteligente que seja capaz de identificar acadmicos do curso de Sistemas de Informao do CEULJI/ULBRA de Ji-Paran que tm propenso evaso, como uma ferramenta que pretende ao menos levar ao conhecimento da equipe diretiva do CEULJI/ULBRA os padres descobertos a partir dos dados dos alunos. O presente trabalho est dividido em trs captulos: o captulo 1 fornece um embasamento terico sobre Minerao de Dados, apresentando seus principais conceitos relacionados; o captulo 2 descreve o estudo de caso realizado no curso de Sistemas de Informao do CEULJI/ULBRA de Ji-Paran; e, por fim, o captulo 3 apresenta os resultados de uma aplicao simulada, como complemento aos argumentos apresentados no captulo 2.

16

1 MINERAO DE DADOS

Com a evoluo da computao, que promoveu o aumento da capacidade de processamento e armazenamento, tornou-se possvel para uma aplicao gerar gigabytes ou terabytes de dados dentro de poucas horas, ultrapassando significativamente a quantidade de horas que pesquisadores levariam para realizar uma anlise sobre esses dados gerados. (MELANDA; PAULA; PUGLIESI e REZENDE, 2003). A necessidade atual transcende as aplicaes relativamente simples, utilizadas anos atrs, as quais foram projetadas para gerao de relatrios simplificados, como relatrios de produtos vendidos ao dia, relatrios de estoque, entre outros. Segundo os autores supracitados, o analista de negcio atual necessita de ferramentas capazes de responder a perguntas como qual produto de alta lucratividade venderia mais com a promoo de um item de baixa lucratividade, analisando os dados dos ltimos dez anos de venda?. Nos tempos atuais, a resposta para uma pergunta como essa pode ser primordial para a sobrevivncia de uma empresa. Melanda, Paula, Pugliesi e Rezende (2003) afirmam que um primeiro passo na anlise dos dados para fins de tomada de deciso seria o Data Warehousing, que consiste em um depsito que armazenar dados limpos, agregados e consolidados, prontos para serem analisados por ferramentas OLAP, que realizam consultas complexas em banco de dados multidimensionais com facilidade. Entretanto, segundo os autores, o usurio no poder ser capaz de imaginar todas as possveis relaes e associaes existentes em um grande volume de dados. Assim, faz-se necessria a utilizao de tcnicas computacionais na extrao automtica, ou semi-automtica de conhecimento a partir de um grande repositrio de dados.

17

A Minerao de Dados o ramo da computao que busca extrair o conhecimento de grandes quantidades de dados. Segundo Amo (2004), a Minerao de Dados surgiu nos anos 80, com a preocupao de algumas empresas com o imenso volume de dados informticos estocados e inutilizados dentro da empresa. Assim, a Minerao de Dados ser responsvel pela anlise da grande quantidade de dados gerados, objetivando responder s perguntas complexas que configuram as necessidades atuais de grandes empresas. A extrao de conhecimento automtica de Bases de Dados chamada de Extrao de Conhecimento de Base de Dados, referenciado na literatura como Knowledge Discovery in Database (KDD) ou Minerao de Dados. Alguns autores como Amo (2004) consideram o KDD como um processo mais amplo, do qual a Minerao de Dados uma etapa. Porm, assim como Melanda, Paula, Pugliesi e Rezende (2003), a conceituao a seguir dever tratar os referidos termos sem quaisquer distines ao descrever os processos da descoberta de conhecimento a partir dos dados.

1.1 Dados, informao e conhecimento

De acordo com Rezende (2003), os dados podem ser considerados como elementos em seu estado puro, quantificvel sobre um determinado evento, que por si s no oferecem embasamento para o entendimento da situao na qual esto inseridos (como o preo do dlar de determinado dia ou o valor do faturamento mensal). A informao so os dados analisados e contextualizados. Envolve a interpretao de um conjunto de dados, onde ser definida qual a sua relevncia a partir da contextualizao em relao situao envolvida (um exemplo a ser tomado o impacto do faturamento mensal em empresas diferentes; um determinado valor de faturamento pode ser insatisfatrio para uma empresa, mas o mesmo valor pode ser acima da mdia para uma outra empresa). O conhecimento trata da habilidade de formao de um modelo mental que descreva o objeto e determine que decises tomar. As diferenas entre dados, informaes e conhecimento so tambm ilustradas por Jamil (2001), atravs de uma tabela de exemplos apresentada a seguir:

18

Tabela 1: Dados, informaes, conhecimento. __________________________________________________________________________________________ DadoQuantia em dinheiro, capital

InformaesColeo de quantias, Salrios de funcionrios, Saldos de correntistas, Perfil mdio de ganhos, Quantias de dinheiro ( possvel comparar se cada quantia ou no destacvel para anlise)

ConhecimentoMecanismos de aplicao de dinheiro, Polticas e regras de investimento, Perfis de gasto e consumo, Prazos de investimento, Capitalizao, Tcnicas de investimento, Histrico de investimentos

Temperatura ambiente

Amostragem da temperatura para este perodo nos ltimos seis anos, Evoluo das temperaturas nos ltimos dois anos, em perodos seis anos diversos, Temperaturas de territrios vizinhos ao nosso, no perodo de

Tcnicas de plantio, Tcnicas de colheita, Funcionamento de maquinaria para plantio e colheita, Adaptao de infra-estrutura para plantio e colheita, Distribuio, Adaptao das sementes aos fatores climticos, Rendimento do plantio, Valor econmico do plantio, Mercado para venda dos produtos agrcolas

Valores das vendas de hoje

Histrico de vendas no ms, Histrico das vendas deste ms nos ltimos anos, Crescimento do mercado, Posio dos concorrentes

Estudo

do

perfil

do

consumidor,

Receptividade do consumidor a novas ofertas e promoes, Retorno de campanhas publicitrias, Estudos de Ciclo de Vida do produto

___________________________________________________________________________Fonte: Jamil, 2001.

1.2 Processos de Minerao de Dados

Alguns autores citados por Melanda, Paula, Pugliesi e Rezende (2003) adotam diversas abordagens quanto diviso de etapas do processo de Extrao de Conhecimento de Bases de Dados. No entanto, Melanda, Paula, Pugliesi e Rezende (2003) consideram o processo em trs etapas: pr-processamento, Extrao de Padres e ps-processamento. H ainda uma fase anterior ao processo (a identificao do problema, inerente ao estudo do domnio da aplicao) e uma posterior ao mesmo, referente utilizao do conhecimento obtido; estas fases so ilustradas na Figura 1. Os usurios do processo de Minerao de Dados so classificados em Especialista do Domnio, que dever ter amplo conhecimento acerca do domnio do problema e apoiar a execuo do processo; O Analista, que dever ter profundo conhecimento do processo de

19

Minerao de Dados e ser responsvel pela execuo da Extrao do Conhecimento e o Usurio Final, que utilizar o conhecimento obtido para auxlio no processo de tomada de deciso este usurio no dever ter conhecimento profundo do domnio da aplicao. ___________________________________________________________________________

___________________________________________________________________________Figura 1: Etapas do Processo de Minerao de Dados.

1.2.1 Identificao do problema

Esta etapa diz respeito ao estudo do domnio da aplicao e da definio dos objetivos e metas a serem alcanadas, conforme Melanda, Paula, Pugliesi e Rezende (2003). Parte do sucesso do processo de Extrao de Conhecimento deve-se participao do Especialista do Domnio, tanto no fornecimento do conhecimento sobre o domnio em questo, quanto no auxlio dispensado ao analista na tarefa de encontrar os padres. Esta fase poder responder a questes como:

20

Quais so as principais metas do processo? Quais critrios de desempenho so importantes? O conhecimento extrado deve ser compreensvel a seres humanos ou um modelo do tipo caixa-preta apropriado? Qual deve ser a relao entre simplicidade e preciso do conhecimento extrado? Enfim, o conhecimento sobre o domnio da aplicao fornece um subsdio para as demais etapas do processo de Extrao de Conhecimento, provendo maior segurana e critrio aos usurios do processo durante a execuo de suas tarefas.

1.2.2 Pr-processamento

No raro, os dados disponveis para anlise no esto formatados adequadamente para a Extrao de Conhecimento, alm do que algumas limitaes, sejam de memria ou processamento impedem a aplicao direta dos algoritmos de extrao de padres aos dados. Assim, faz-se necessrio lanar mos de mtodos para a limpeza desses dados antes de iniciar a etapa de Extrao de Padres. Melanda, Paula, Pugliesi e Rezende (2003) salientam a importncia de observar os objetivos do processo no momento de fazer as transformaes, de modo que os dados gerados apresentem as caractersticas necessrias para que os objetivos sejam cumpridos. Segundo os autores, as transformaes a serem executadas nessa etapa so: Extrao e Integrao, Transformao, Limpeza, Seleo e Reduo de Dados. Extrao e Integrao: Os dados para anlise podem ter originado de diferentes fontes, como arquivos do tipo texto, planilhas, Bancos de Dados ou Data Warehouse. Ento, ser necessrio unificar esses dados, modelando-os no formato atributo-valor, gerando uma nica fonte de dados que servir como entrada para o algoritmo de Extrao de Padres. Transformao: Os dados extrados e integrados devero ser adequados para serem utilizados nos algoritmos de Extrao de Padres. As transformaes podem ser por resumo, por exemplo o agrupamento dos dados sobre vendas para gerao de resumos dirios;

21

transformao de tipo, quando o atributo tem seu tipo transformado em outro tipo, para melhor ser utilizado pelo algoritmo de Extrao de Padres; a normalizao de atributos contnuos, estabelecendo seus valores em intervalos definidos, como por exemplo entre 0 e 1. As transformaes podem ser extremamente importantes em domnios que tratem sries temporais, como por exemplo a previso no mercado financeiro. Limpeza: Os dados disponveis podem apresentar problemas advindos da coleta, como erros de digitao ou de leitura por sensores. Desse modo, tcnicas de limpeza devem ser aplicadas, pois a qualidade dos dados um fator extremamente importante. A limpeza pode ser realizada utilizando o conhecimento do domnio. Seleo e Reduo de Dados: Devido a possveis restries de memria e tempo de processamento, o nmero de exemplos e de atributos disponveis pode inviabilizar a utilizao de algoritmos de Extrao de Padres. Para se resolver esse problema, pode-se aplicar alguns mtodos antes de iniciar a busca por padres: Reduo do nmero de exemplos: utiliza-se a amostragem aleatria, por mostrar-se mais eficaz na produo de amostras mais representativas. Trata-se de um importante fator, pois se a amostra no for representativa, os exemplos possivelmente no sero capazes de refletir a realidade; Reduo do nmero de atributos: Dever ser selecionado um subconjunto dos atributos existentes, de modo que isso no comprometa a qualidade da soluo final. Esse processo poder ser executado com o apoio do Especialista do Domnio. Deve-se remover apenas aqueles atributos que certamente no tero nenhuma importncia para o modelo final; Reduo do nmero de valores de um atributo: Consiste na discretizao ou na suavizao dos valores de um atributo contnuo. A discretizao substitui um atributo contnuo (inteiro ou real) por um atributo discreto, por meio de agrupamento de seus valores, estabelecendo intervalos na forma [Vinferior : Vsuperior], respectivamente os limites inferior e superior do intervalo. A suavizao consiste na reduo do valor de um atributo, sem discretiz-lo. Os valores de um determinado atributo sero agrupados, e cada grupo de valores ser substitudo por um valor nmero que o represente, sendo que este valor poder ser a mdia, mediana ou valor de borda de cada grupo.

22

1.2.3 Extrao de Padres

A Extrao de Padres dever abranger a escolha, configurao e execuo de um ou mais algoritmos para a Extrao do Conhecimento. Para Melanda, Paula, Pugliesi e Rezende (2003), essa uma etapa iterativa, o que significa que podero ser necessrias vrias repeties a fim de se ajustar os parmetros, visando resultados mais adequados aos objetivos preestabelecidos. Essa etapa compreende a escolha da tarefa, a escolha do algoritmo e a extrao dos padres em si. A escolha da tarefa ser feita de acordo com os objetivos desejveis para a soluo a ser encontrada (ver as principais tarefas e suas respectivas descries e exemplos na seo 1.3). As tarefas possveis de um algoritmo de extrao de padres podem ser agrupadas em atividades preditivas e descritivas, conforme Figura 2: ___________________________________________________________________________

___________________________________________________________________________Figura 2: Tarefas de Minerao de Dados

As atividades de predio focam a generalizao de exemplos ou experincias anteriores com respostas conhecidas numa linguagem que ser capaz de reconhecer a classe de um novo exemplo. J as atividades de descrio lidam com a identificao de comportamentos intrnsecos do conjunto de dados, que no possuem uma classe especfica.

23

A escolha de um algoritmo realizada de acordo com a linguagem de representao de padres a serem encontrados. Por exemplo, se for um caso de classificao, algoritmos de rvore de Deciso ou regras de produo podem ser utilizados. Entre os tipos mais comuns de representao esto as rvores de Deciso, regras de produo, modelos lineares, modelos no-lineares (Redes Neurais Artificiais), modelos baseados em exemplos (K-Nearest Neighbor, Raciocnio Baseado em Casos) e modelos de dependncia estatstica (Redes Bayesianas). Um ponto importante a complexidade da soluo encontrada pelo algoritmo, que est diretamente associada capacidade de representao dos conceitos embutidos nos dados. Quando os parmetros de um algoritmo esto ajustados de modo a encontrar solues mais complexas que o conceito efetivamente existente nos dados, esse algoritmo pode ter um desempenho bom para esse conjunto de treinamento, mas ruim para novos exemplos, ocorrendo overfitting. Em contrapartida, se o ajuste insuficiente para adequar o conceito representado nos dados, o modelo induzido poder no ser representativo, ocorrendo underfitting, sendo que, neste caso, o modelo encontrado provavelmente no ter bom desempenho tanto sobre os dados de treinamento quanto sobre novos exemplos. Assim, faz-se necessrio uma criteriosa configurao dos parmetros dos algoritmos; poder ser feita a escolha de vrios algoritmos para a realizao da tarefa, o que originar vrios modelos a serem tratados na fase de ps-processamento, a fim de fornecer o conjunto de padres mais adequados ao usurio final. A etapa de extrao de padres visa a aplicao dos algoritmos de Minerao escolhidos para a Extrao dos Padres; esses algoritmos devero ser executados diversas vezes, dependendo da funo escolhida. A disponibilizao dos padres extrados ou sua incorporao a um Sistema Inteligente dever ocorrer aps a anlise e/ou processamento dos mesmos na etapa de ps-processamento.

1.2.4 Ps-processamento

Obter o conhecimento a partir dos dados ainda no a ltima etapa de Minerao de Dados; o conhecimento obtido ser, finalmente, utilizado na resoluo de problemas do mundo real. Todavia, importante observar algumas questes, tais como, se o conhecimento extrado realmente representa o conhecimento do especialista, como o conhecimento extrado

24

difere do conhecimento do especialista, ou em que parte o conhecimento do especialista est correto. (MELANDA; PAULA; PUGLIESI e REZENDE, 2003). Um dos objetivos primordiais da extrao de conhecimento que o usurio possa compreender e utilizar o conhecimento obtido. O fator compreensibilidade mostra-se essencial nesse processo. A compreensibilidade de um certo conjunto de regras est relacionada com a facilidade com que o usurio pode interpret-las ou compreend-las exemplos desse fator podem compreender o nmero de regras e suas respectivas condies, ambos em nmero limitado, ou mesmo modelos que no contradizem o conhecimento prvio de um usurio especialista. (MELANDA; PAULA; PUGLIESI e REZENDE, 2003). Outro notvel fator a interessabilidade, a qual busca avaliar o quanto h de conhecimento interessante. O fator interessabilidade engloba duas medidas as objetivas, apenas relacionadas com estruturas de padres e do conjunto de dados de teste, sendo algumas delas, de acordo com Horst apud Melanda, Paula, Pugliesi e Rezende (2003) modelos de regras, coberturas de regras mnimas, custo da classificao incorreta e tamanho do disjunto; as subjetivas, medidas que consideram que fatores especficos do conhecimento do domnio e de interesse do usurio devem ser tratados ao selecionar um conjunto de regras interessantes ao usurio, sendo algumas dessas, de acordo com Silberschatz e Tuzhilin apud Melanda, Paula, Pugliesi e Rezende (2003), a inesperabilidade e utilidade. Se o conhecimento, aps feita a anlise, no for interessante para o usurio final ou no cumprir com os objetivos propostos, o processo de extrao poder se repetido com o ajuste dos parmetros ou com a melhoria do processo de escolha dos dados, para obteno de melhores resultados numa prxima iterao.

1.3 Tarefas de Minerao de Dados

As tarefas de Minerao de Dados devero representar o que se quer minerar dentro dos dados, quais padres podero ser considerados interessantes dentro de um determinado contexto. Essas tarefas devero ser definidas logo no incio do processo de Minerao de Dados.

25

Dias (2002) ilustra de forma breve as principais tarefas de Minerao de Dados na Tabela 2:Tabela 2: Tarefas realizadas por tcnicas de Minerao de Dados. __________________________________________________________________________________________ Tarefa Classificao Descrio Constri um modelo de algum tipo que possa ser aplicado a dados no classificados a fim de categoriz-los em classes, o objetivo descobrir um relacionamento entre o atributo meta (cujo valor ser previsto) e um conjunto de atributos de previso. Usada para definir um valor para alguma varivel contnua desconhecida. Exemplos Classificar pedidos de crdito. Esclarecer pedidos de seguros fraudulentos. Identificar a melhor forma de tratamento de um paciente. Estimar o nmero de filhos ou a renda total de uma famlia. Estimar o valor em tempo de vida de um cliente. Estimar a probabilidade de que um paciente morrer baseandose nos resultados de diagnsticos mdicos. Prever a demanda de um consumidor para um novo produto. Determinar que produtos costumam ser colocados juntos em um carrinho de supermercado. Agrupar clientes por regio do pas. Agrupar clientes com comportamento de compra similar. Agrupar sees de usurios Web para prever comportamento futuro de usurio. Tabular o significado e desvios padro para todos os itens de dados. Derivar regras de sntese.

Estimativa (ou regresso)

Associao

Usada para determinar quais itens tendem a ser adquiridos juntos em uma mesma transao. Processo de partio de uma populao heterognea em vrios subgrupos ou grupos mais homogneos.

Segmentao (ou Clustering)

Sumarizao

Envolve mtodos para encontrar uma descrio compacta para um subconjunto de dados.

___________________________________________________________________________Fonte: Dias, 2002.

A tarefa de classificao consiste no mapeamento de um conjunto de exemplos, ou conjunto de dados de entrada, de um estrito nmero de categorias. Cada exemplo faz parte de uma classe, dentro de um conjunto predefinido de classes, e os exemplos so constitudos de um conjunto de atributos e um atributo-classe (ou atributo-meta) discreto. Um algoritmo de classificao objetiva encontrar relacionamentos entre os atributos e uma classe, de modo que seja capaz de predizer a classe de um exemplo novo e desconhecido. A tarefa de regresso

26

segue basicamente o mesmo conceito de tarefa de classificao, entretanto o atributo a ser predito contnuo, e no discreto. (MELANDA; PAULA; PUGLIESI e REZENDE, 2003). Regras de associao investigam o quanto a presena de um conjunto de atributos em registros de uma Base de Dados implica a presena de outro conjunto de atributos. O formato da regra apresentado como L R, o lado esquerdo (Left Hand Side) e o lado direito (Right Hand Side), respectivamente. A tarefa de segmentao (ou clustering) objetiva formar agrupamentos a partir dos dados. Esse processo feito de maneira que os exemplos com atributos similares sejam inseridos num mesmo cluster, sendo que os mesmos podem ser mutuamente exclusivos ou sobrepostos. A tarefa de sumarizao lana mo de mtodos para descrever de forma compacta um subconjunto de dados. A definio da mdia e desvio padro de todos os campos um exemplo de sumarizao.

1.4 Tcnicas de Minerao de Dados

Inteligncia Artificial o ramo da computao preocupado com a automao de comportamento inteligente Luger & Stubblefield (apud FERNANDES, 2003, p.2). Feigenbaum apud Fernandes (2003), destaca que a Inteligncia Artificial a rea da computao direcionada ao desenvolvimento de sistemas de computadores que sejam capazes de exibir caractersticas associadas inteligncia no comportamento humano, como a linguagem natural, o raciocnio, a aprendizagem, entre outros. A Inteligncia Artificial uma tentativa de reproduo computacional da capacidade humana de raciocnio e compreenso do mundo sua volta, emulando assim processos pelos quais os seres humanos chegam s solues para os mais variados tipos de problemas. A Inteligncia Artificial pode ser classificada em vrios modelos, os quais podem assumir o papel de tcnica de Minerao de Dados. De acordo com Ganascia apud Fernandes (2003), os principais modelos de Inteligncia Artificial so os Algoritmos Genticos, a

27

Programao Evolutiva, Lgica Fuzzy, Sistemas Baseados em Regras, Raciocnio Baseado em Casos, Programao Gentica e Redes Neurais Artificiais, brevemente descritos a seguir: Algoritmos Genticos: so modelos inspirados na teoria da evoluo da espcie, ilustrada no livro Origem das Espcies, escrito por Charles Darwin no ano de 1859. Darwin foi o criador da teoria evolucionista, segundo a qual os seres mais aptos so os que tm maiores chances de sobrevivncia. Algoritmos Genticos objetivam a emulao das operaes genticas (cruzamento, mutao e reproduo), tal qual so observadas na natureza. Para tal, uma mquina cria uma populao de indivduos que representam os cromossomos, que passam por um processo simulado de evoluo, seleo e reproduo, gerando novas populaes; Programao Evolutiva: So semelhantes aos Algoritmos Genticos, salvo a nfase dada relao comportamental entre os parentes e seus descendentes; Lgica Fuzzy: Tambm chamada de lgica difusa ou nebulosa, trata-se de um modelo responsvel pela representao, manipulao e modelagem de informaes com certo grau de incerteza; Sistemas Baseados em Regras: Tratam da implementao de comportamento Inteligente de especialistas humanos; Programao Gentica: Objetiva a construo de programas que visam imitar o processo natural da Gentica. Trabalha com mtodos de busca aleatria; Raciocnio Baseado em Casos: Utiliza uma extensa biblioteca de casos que esto disponveis para consulta e resoluo de problemas, os quais so resolvidos atravs da recuperao e consultas desses casos, j solucionados, e da conseqente adaptao das solues encontradas; Redes Neurais Artificiais: Procuram emular o processamento cerebral humano. Consiste em um nmero de elementos interconectados (os neurnios) dispostos em camadas que aprendem pela modificao da conexo firmemente conectando as camadas. De acordo com Dias (2002), no existe uma tcnica que resolva plenamente todos os problemas de Minerao de Dados. Existem vrios mtodos para diferentes propsitos, e cada um deles apresenta vantagens e desvantagens.

28

Na Tabela 3, Dias (2002) sumariza as tcnicas de Minerao de Dados comumente utilizadas:Tabela 3: Tcnicas de Minerao de Dados. __________________________________________________________________________________________ Tcnica Descoberta de Regras de Associao rvores de Deciso Descrio Estabelece uma correlao estatstica entre atributos de dados e conjuntos de dados. Hierarquizao dos dados, baseada em estgios de deciso (ns) e na separao de classes e subconjuntos. Baseado no mtodo do vizinho mais prximo, combina e compara atributos para esclarecer hierarquia de semelhana. Mtodos gerais de busca e otimizao, inspirados na Teoria da Evoluo, onde a cada nova gerao, solues melhores tm mais chance de terem descendentes. Modelos inspirados na fisiologia do crebro, onde o conhecimento fruto do mapa das conexes neuronais e dos pesos dessas conexes. Tarefas Associao Exemplos Apriori, AprioriTid, AprioriHybrid. C5.0, Quest.

Classificao Regresso

Raciocnio Baseado em Casos ou MBR

Classificao Segmentao

BIRCH, CLARANS e CLIQUE.

Algoritmos Genticos

Classificao Segmentao

Algoritmo Gentico Simples, Genitor, Algoritmo de Hills.

Redes Artificiais

Neurais

Classificao Segmentao

Perceptron, Redes de Kohonen, Rede Hopfield, Rede Counterpropagation, Rede Time Delay, Neocognitron.

___________________________________________________________________________Fonte: adaptado de Dias, 2002.

1.4.1 Escolha da Tcnica de Minerao de Dados

A escolha da tcnica para a Minerao de Dados no uma tarefa fcil, a qual depender da tarefa especfica a ser executada e dos dados disponveis para anlise. Berry e Linoff apud Dias (2002) sugerem dois passos para seleo da tcnica de Minerao de Dados:

29

1. Traduzir o problema de negcio a ser resolvido em sries de tarefas de minerao de dados: Este primeiro passo trata a definio de uma espcie de meta comercial, como por exemplo manter os clientes. Objetiva-se aqui identificar os assinantes que tenham pretenso de desistir de suas respectivas assinaturas e tambm os assinantes que no pretendem faz-lo, executando uma classificao. Assim, usando um conjunto de dados de treinamento com exemplos de clientes que cancelaram a assinatura e exemplos de outros clientes que no o fizeram, ser possvel a construo de um modelo que seja capaz de rotular cada cliente como fiel ou instvel; 2. Compreender a natureza dos dados disponveis em termos de contedo e tipos de campos de dados e estrutura das relaes entre os registros: O segundo passo compreende a determinao das caractersticas dos dados em anlise, a fim de selecionar a tcnica de Minerao de Dados para diminuir o nmero e dificuldade de transformao de dados. A Tabela 4 sumariza as caractersticas de dados, bem como suas respectivas tcnicas de Minerao.

30

Tabela 4: Caractersticas de dados. _________________________________________________________________________________________ Caracterstica Variveis de categorias Descrio So campos que apresentam valores de um conjunto de possibilidades limitado e predeterminado Variveis numricas So aquelas que podem ser somadas e ordenadas. Muitos registro campos por Este pode ser um fator de deciso da tcnica correta para uma aplicao especfica, uma vez que os mtodos de minerao de dados variam na capacidade de processar grandes nmeros de campos de entrada. Variveis mltiplas Registro de comprimento varivel dependentes Caso em que desejado prever vrias variveis diferentes baseadas nos mesmos dados de entrada. Apresentam dificuldades na maioria das tcnicas de minerao de dados, mas existem situaes em que a transformao Dados ordenados para registros de Rede Neural intervalar (time-delay). Descoberta de regras de associao. comprimento fixo no desejada. Apresentam dificuldades para todas as tcnicas e, geralmente, requerem aumento dos dados de teste com marcas Texto sem formatao ou avisos, variveis de Raciocnio (MBR). baseado em casos diferena, etc. A maioria das tcnicas de minerao de dados incapaz de manipular texto sem formatao. cronologicamente Descoberta de regras de associao. Redes Neurais Raciocnio (MBR). rvores de deciso. rvores de deciso. baseado em casos Tcnicas de Minerao de Dados Descoberta de regras de associao. rvores de deciso.

___________________________________________________________________________Fonte: Dias, 2002.

31

1.5 Tecnologias de Suporte Minerao de Dados

De acordo com Melanda, Paula, Pugliesi e Rezende (2003), a Minerao de Dados lana mo de diversas tcnicas, de diferentes reas, como o Aprendizado de Mquina, Data Warehousing, Banco de Dados, Estatstica e Visualizao de Dados. Dessas tcnicas, o Aprendizado de Mquina o mais utilizado, no decorrer da fase de Extrao de Padres, e as demais so tidas como ferramentas de apoio ao processo de Minerao de Dados.

1.5.1 Aprendizado de Mquina

Para Monard e Baranauskas (2003), o aprendizado de mquina uma rea da Inteligncia Artificial que objetiva desenvolver tcnicas computacionais sobre o conhecimento e construir sistemas que so capazes de adquirir conhecimento de forma automtica; os sistemas de aprendizado de mquina basearo suas decises sobre experincias acumuladas atravs da soluo bem-sucedida de problemas anteriores. Os autores frisam que, apesar do aprendizado de mquina ser poderoso na aquisio automtica do conhecimento, no h um nico algoritmo que apresente melhor desempenho para todos os problemas. A forma de extrair o conhecimento utilizado a inferncia indutiva; a induo, conforme discorre Monard e Baranauskas (2003), obtm o raciocnio a partir de um conjunto particular de exemplos, caracterizando raciocnio originado de conceitos especficos e generalizados da parte para o todo. O aprendizado indutivo pode ser dividido em aprendizado supervisionado e aprendizado no-supervisionado. No aprendizado supervisionado, fornecido ao indutor (ou algoritmo de aprendizado) um conjunto de exemplos de treinamento, o qual o rtulo da classe associada conhecido. J no aprendizado no-supervisionado, o indutor analisa o exemplo fornecido para treinamento, forma agrupamentos e tenta classificar cada um destes, a fim de determinar o que cada um dos agrupamentos significa dentro do problema em questo.

32

Monard e Baranauskas (2003) afirmam que, no processo de classificao, o conhecimento do domnio poder ser utilizado na escolha dos dados ou no fornecimento de alguma informao previamente conhecida, como entrada ao indutor. Aps a induo, o classificador geralmente avaliado e o processo de classificao poder ser repetido, se necessrio, por exemplo, no ajuste de parmetros ou adio de novos exemplos. Monard e Baranauskas (2003) frisam que o grau de compreensibilidade proporcionado ao ser humano um fator de relevncia. Michalski e Kubat, Bratko, & Michalski apud Monard e Baranauskas (2003) dispem os sistemas de aprendizados em duas categorias: Os sistemas do tipo caixa-preta: desenvolvem sua prpria representao dos conceitos; so sistemas cujas representaes internas no podem ser facilmente interpretadas pelos seres humanos e no fornecem esclarecimento, tampouco explicao de seu processo de reconhecimento; Os sistemas orientados ao conhecimento: so sistemas que fornecem estruturas simblicas compreensveis aos seres humanos. Quanto aos paradigmas de Aprendizado de Mquina, Monard e Baranauskas (2003) citam alguns exemplos destes, a seguir: Simblico: Buscam aprender construindo representaes simblicas de um conceito. Esto tipicamente na forma de rvores de deciso, regras ou redes semnticas; Estatstico: Utiliza modelos estatsticos na aproximao do conceito induzido. Entre os mtodos estatsticos, destacam-se os de aprendizado Bayesiano, que utilizam modelos probabilsticos baseados no conhecimento prvio do problema; Baseados em exemplos: Classifica exemplos desconhecidos com base em exemplos similares. So denominados sistemas lazy (preguioso), os quais necessitam manter os exemplos na memria para classificar novos exemplos. Uma das tcnicas mais conhecidas neste paradigma o Raciocnio Baseado em Casos. Conexionista: Utiliza Redes Neurais Artificiais, que so inspiradas no modelo biolgico do sistema nervoso, na resoluo de problemas;

33

Evolutivo: Consiste no modelo biolgico de aprendizado. Possui analogia direta com a Teoria da Evoluo proposta por Darwin, onde os mais fortes e com maior facilidade de adaptao sobrevivem. Uma tcnica utilizada neste paradigma so os algoritmos genticos. O aprendizado supervisionado possui diversos conceitos e definies; alguns desses esto contidos no escopo deste projeto e so descritos a seguir: Indutor: Algoritmo de induo que dever extrair um bom classificador a partir de exemplos rotulados; o classificador ser utilizado para classificar exemplos novos (no rotulados) a fim de predizer o rtulo de cada um. Exemplo: Tupla de valores de atributos, o exemplo descreve o objeto de interesse, como dados de um paciente de determinada clnica, entre outros. Atributo: Caracterstica ou aspecto de um exemplo. Os atributos podem ser classificados normalmente em nominal ou discreto (quando no existe ordem entre valores, por exemplo: vermelho, azul) e contnuo (quando h uma ordem linear de valores , por exemplo: peso , um nmero real). Classe: Tambm denominado rtulo, descreve o fenmeno de interesse, isto , o conceitometa. Nos casos de classificao, os rtulos tipicamente pertencem a um conjunto de atributos discretos. Conjunto de exemplos: Composto por exemplos contendo valores de atributos, bem como a classe associada, tal como mostrado na tabela abaixo:

34

Tabela 5: Conjunto de exemplos no formato atributo-valor. __________________________________________________________________________________________

X1 T1 T2 ... Tn x11 x21 ... xn1

X2 x12 x22 ... xn2

... ... ... ... ...

Xm x1m x2m ... xnm

Y y1 y2 ... yn

___________________________________________________________________________Fonte: Monard e Baranauskas, 2003.

A ltima coluna, Y, contm o atributo-meta, tambm chamado de classe. Classificador: Tambm chamado de hiptese. A partir do classificador, a classe de um novo exemplo dever ser predita com maior preciso possvel. Rudo: Trata-se de imperfeies nos dados, que podem ser derivados, por exemplo, no processo de aquisio ou transformao desses dados. Matriz de confuso: A matriz de confuso oferece medida efetiva do modelo de classificao, ao mostrar o nmero de classificaes corretas contra as classificaes preditas para cada classe sobre um conjunto de exemplos T. Cada elemento M(Ci, Cj) da matriz, i, j: 1, 2, ..., k, calculado pela equao M(Ci, Cj) = ((x,y)T : y = Ci) representa o nmero de exemplos de T que pertencem classe Ci, mas foram classificados como sendo da classe Cj.Tabela 6: Matriz de Confuso de um classificador. __________________________________________________________________________________________

Classe verdadeira C1 verdadeira C2 ... verdadeira Ck

Predita C1 M(C1, C1) M(C2, C1) ... M(Ck, C1)

Predita C2 M(C1, C2) M(C2, C2) ... M(Ck, C2)

... ... ... ... ...

Predita Ck M(C1, Ck) M(C2, Ck) ... M(Ck, Ck)

__________________________________________________________________________________________ Fonte: Monard e Baranauskas, 2003.

35

O nmero de acertos para cada classe localiza-se na diagonal principal M(Ci,Ci) da matriz de confuso, sendo que os demais representam erros de classificao. A matriz de confuso de um classificador ideal possui todos esses elementos iguais zero, o que significa que nenhum elemento de uma classe foi predita como sendo de outra classe, ou seja, o classificador no cometeu erros. Para melhor ilustrar tais assertivas, consideram-se duas classes usualmente rotuladas como + (positiva) e - (negativa), onde os dois erros possveis so denominados como falso positivo (FP) e falso negativo (FN), conforme ilustrado na tabela 7, onde TP o nmero de exemplos positivos classificados corretamente e TN o nmero de exemplos negativos classificados corretamente, no total de n= (TP + FN + FP + TN) exemplos.

Tabela 7: Matriz de Confuso para a classificao com duas classes. __________________________________________________________________________________________

Classe verdadeira C +

Predita C+ Verdadeiros positivos TP Falsos positivos

Predita CFalsos negativos FN Verdadeiros negativos TN

verdadeira C -

FP

__________________________________________________________________________________________ Fonte: adaptado de Monard e Baranauskas, 2003.

A seguir, so apresentadas frmulas para o clculo de taxas de correo de classificao, com base em Frank e Witten (2000):

Taxa de verdadeiros positivos (ou TP Rate):

TP TP + FN

Taxa de falsos positivos (ou FP Rate):

FP FP + TN

36

Precision: nmero de instncias classificadas corretamente como Xnmero total de instncias classificadas como X

Recall:

nmero de instncias classificadas corretamente como X nmero total de instncias para Classe X

F-Measure:

2TP 2TP + FP + FN

1.5.1.1 Avaliao de algoritmos

Monard e Baranauskas (2003) frisam o poder do Aprendizado de Mquina ressaltando, contudo, que no h um nico algoritmo que apresente o melhor desempenho para todos os problemas. A seguir, so descritos mtodos para estimar medidas de erro e preciso, com base nos mesmos autores: Resubstituio: consiste em construir um classificador a partir de um conjunto de instncias e utiliz-las para testar seu desempenho, ou seja, o conjunto de teste idntico ao conjunto de treinamento. Esse mtodo fornece uma medida aparente, com medidas de preciso bastante otimistas, afinal o processo de classificao tenta maximiz-la. Para algoritmos que geralmente classificam todas as instncias corretamente, como o caso do 1-Nearest Neighbors (vizinhos mais prximos), o presente mtodo bastante otimista, podendo a estimativa de preciso atingir at 100%; Holdout: o presente mtodo divide os exemplos em uma porcentagem fixa de exemplos p para treinamento e (p 1) para teste, considerando normalmente p > ;

37

Amostragem aleatria: no presente mtodo, L hipteses, L