Submissão (Reparado)UMA ANÁLISE QUALITATIVA DA TAXA DE ERRO GERADA PELO CASSIFICADOR LINEAR E NÃO...

11
BISPO&FERNANDES JR (2013) Congresso Norte Nordeste de Pesquisa e Inovação, 2013 1 UMA ANÁLISE QUALITATIVA DA TAXA DE ERRO GERADA PELO CASSIFICADOR LINEAR E NÃO LINEAR EM PROBLEMA DE MINERAÇÃO DE DADOS F. S. C. Bi spo¹ e J. A. Fernandes Jr 2 ¹Grupo de Pesquisa em Robótica, Campus São Cristóvão – Universidade Federal de Sergipe, UFS. E-mail: [email protected]; 2 Departamento de Computação, Campus São Cristóvão – Universidade Federal de Sergipe, UFS. E-mail: [email protected] Artigo submetido em 07/2013 e aceito em 09/2013 RESUMO Este trabalho tem como objetivo fazer uma análise qualitativa da taxa de erro envolvendo o uso de classificadores linear e não linear, obtido por Pseudo- inversão e implementado uma Rede Neural de múltiplas camadas, respectivamente, sendo esse último utilizando o algoritmo de aprendizado do gradiente descendente com retro propagação do erro. Ambos classificadores são aplicados aqui no problema de classificação de duas classes não separáveis, típico em mineração de dados. O problema sugere, então, a classificação de dados de uma base proposta, trabalhada e publicada por Postaire et al. (1993). O foco do trabalho se restringe a taxa de erro gerada pelos dois procedimentos e a comparação tanto numérica quanto gráfica de seus resultados mostraram a grande superioridade da Rede Neural Artificial obtendo em média cerca de 97% de acerto na classificação dos dados de teste os quais foram melhores que a do classificador linear. PALAVRAS-CHAVE: Taxa de erro, problema de classificação, Pseudo-inversão, Rede Neural. A QUALITATIVE ANALYSIS OF THE ERROR RATE GENERATED BY BOTH LINEAR AND NONLINEAR CLASSIFIERS IN DATA MINING PROBLEM ABSTRACT This paper aims to make a qualitative analysis of the error rate involving the use of both linear and nonlinear classifiers, obtained by Pseudo-inversion and a Neural Network implemented by multiple layers using the learning algorithm of gradient descent with retro error propagation. Both classifiers are applied here in the classification problem of two classes no separable, typical in data mining. Then the problem suggests the classification of a data base proposal, worked and published by Postaire et al. (1993). The focus of the work is restricted to the error rate generated by both procedures and compared both numerically and graphically the results showed the great superiority of the Artificial Neural Network getting on average around 97% accuracy in classifying test data which were better than the linear classifier. KEY-WORDS: Error rate, classification problem, Pseudo-inversion, Neural Network.

description

Este trabalho tem como objetivo fazer umaanálise qualitativa da taxa de erro envolvendo o uso declassificadores linear e não linear, obtido por Pseudoinversãoe implementado uma Rede Neural de múltiplascamadas, respectivamente, sendo esse último utilizandoo algoritmo de aprendizado do gradiente descendentecom retro propagação do erro. Ambos classificadoressão aplicados aqui no problema de classificação de duasclasses não separáveis, típico em mineração de dados. Oproblema sugere, então, a classificação de dados deuma base proposta, trabalhada e publicada por Postaireet al. (1993). O foco do trabalho se restringe a taxa deerro gerada pelos dois procedimentos e a comparaçãotanto numérica quanto gráfica de seus resultadosmostraram a grande superioridade da Rede NeuralArtificial obtendo em média cerca de 97% de acerto naclassificação dos dados de teste os quais forammelhores que a do classificador linear.

Transcript of Submissão (Reparado)UMA ANÁLISE QUALITATIVA DA TAXA DE ERRO GERADA PELO CASSIFICADOR LINEAR E NÃO...

Page 1: Submissão (Reparado)UMA ANÁLISE QUALITATIVA DA TAXA DE ERRO GERADA PELO CASSIFICADOR LINEAR E NÃO LINEAR EM PROBLEMA DE MINERAÇÃO DE DADOS

BISPO&FERNANDES JR (2013)

Congresso Norte Nordeste de Pesquisa e Inovação, 2013 1

UMA ANÁLISE QUALITATIVA DA TAXA DE ERRO GERADA PELO CASSIFICADOR LINEAR E NÃO LINEAR EM PROBLEMA DE MINERAÇÃO DE DADOS

F. S. C. Bispo¹ e J. A. Fernandes Jr2 ¹Grupo de Pesquisa em Robótica, Campus São Cristóvão – Universidade Federal de Sergipe, UFS. E-mail:

[email protected]; 2Departamento de Computação, Campus São Cristóvão – Universidade Federal de Sergipe, UFS. E-mail: [email protected]

Artigo submetido em 07/2013 e aceito em 09/2013

RESUMO

Este trabalho tem como objetivo fazer uma análise qualitativa da taxa de erro envolvendo o uso de classificadores linear e não linear, obtido por Pseudo-inversão e implementado uma Rede Neural de múltiplas camadas, respectivamente, sendo esse último utilizando o algoritmo de aprendizado do gradiente descendente com retro propagação do erro. Ambos classificadores são aplicados aqui no problema de classificação de duas classes não separáveis, típico em mineração de dados. O problema sugere, então, a classificação de dados de uma base proposta, trabalhada e publicada por Postaire

et al. (1993). O foco do trabalho se restringe a taxa de erro gerada pelos dois procedimentos e a comparação tanto numérica quanto gráfica de seus resultados mostraram a grande superioridade da Rede Neural Artificial obtendo em média cerca de 97% de acerto na classificação dos dados de teste os quais foram melhores que a do classificador linear.

PALAVRAS-CHAVE: Taxa de erro, problema de classificação, Pseudo-inversão, Rede Neural.

A QUALITATIVE ANALYSIS OF THE ERROR RATE GENERATED BY BOTH LINEAR AND NONLINEAR CLASSIFIERS IN DATA MINING PROBLEM

ABSTRACT

This paper aims to make a qualitative analysis of the error rate involving the use of both linear and nonlinear classifiers, obtained by Pseudo-inversion and a Neural Network implemented by multiple layers using the learning algorithm of gradient descent with retro error propagation. Both classifiers are applied here in the classification problem of two classes no separable, typical in data mining. Then the problem suggests the classification of a data base proposal, worked and

published by Postaire et al. (1993). The focus of the work is restricted to the error rate generated by both procedures and compared both numerically and graphically the results showed the great superiority of the Artificial Neural Network getting on average around 97% accuracy in classifying test data which were better than the linear classifier.

KEY-WORDS: Error rate, classification problem, Pseudo-inversion, Neural Network.

Page 2: Submissão (Reparado)UMA ANÁLISE QUALITATIVA DA TAXA DE ERRO GERADA PELO CASSIFICADOR LINEAR E NÃO LINEAR EM PROBLEMA DE MINERAÇÃO DE DADOS

BISPO&FERNANDES JR (2013)

Congresso Norte Nordeste de Pesquisa e Inovação, 2013 2

UMA ANÁLISE QUALITATIVA DA TAXA DE ERRO GERADA PELO CASSIFICADOR LINEAR E NÃO LINEAR EM PROBLEMA DE MINERAÇÃO DE DADOS

1. INTRODUÇÃO

A tarefa de rotular qualquer que seja o processo em questão é facilmente e sem maiores

dificuldades executado por um ser humano através de nossos sentidos. Pode-se fazer isto intuitivamente e sem nenhum esforço, caso o conhecimento necessário para isso já tenha sido adquirida através de um processo de aprendizagem. Segundo Semolini (2002), o problema de classificação, pode ser definido formalmente como o processo pelo qual padrões recebidos são distribuídos por um número prescrito de classes (categorias).

Porém, delegar essa tarefa a uma máquina ou a um processo é um desafio até hoje. Inúmeras técnicas são empregadas para a classificação de dados e tomada de decisão em variadas situações, a exemplo de técnicas lineares e não lineares. Dentre as que usam o classificador linear, que será aplicado e analisado aqui, são marcadas pela relativa facilidade em ser executada e na falta de informação da natureza do dado, o mesmo é um forte candidato para iniciar um classificador (Duda et al., 2001). Portanto, a classificação linear pode ser muito útil para algumas aplicações em larga escala, conclui Yuan et al. (2012). Obras recentes nesta linha atestam esta utilidade (Fan et al., 2008), (Hsieh et al., 2008) e (Yuan et al., 2012).

Ainda para Semolini (2002) o caso mais difícil de classificação é quando as classes não são linearmente separáveis. Ou seja, dadas às amostras de treinamento, não é possível construir uma fronteira que separe as classes sem encontrar erros de classificação. Dentre as aplicações práticas de classificação de padrões envolvendo este tipo de abordagem se pode encontrar desde uma simples classificação entre duas classes de peixes como na situação hipotética mostrado por Duda et al. (2001) em seu livro ou de açucares em Messias et al. (2012) até as aplicações como: detecção de falhas vistos nos trabalhos de Mavromatidisa et al. (2013) e Castanheira (2008), a classificação de documento textual em Ghiassi et al. (2012) e entre outros. Contudo, é possível encontrar uma função discriminante que minimize a probabilidade do erro de classificação junto às amostras de treinamento.

Diferente de algumas propostas existentes na literatura que não levam em consideração a minimização do erro, assumiu-se aqui e como no trabalho proposto por Gonçalves (2010), o objetivo é encontrar um classificador, como os que são exibidos nos quadros da Figura 1, ou seja, que separe devidamente os dados das classes gerando para isso a mínima contagem de erro.

Figura 1 – Conjunto de treino com funções discriminantes lineares e não lineares em 2D. Fonte – (Gonçalves, 2010).

Page 3: Submissão (Reparado)UMA ANÁLISE QUALITATIVA DA TAXA DE ERRO GERADA PELO CASSIFICADOR LINEAR E NÃO LINEAR EM PROBLEMA DE MINERAÇÃO DE DADOS

BISPO&FERNANDES JR (2013)

Congresso Norte Nordeste de Pesquisa e Inovação, 2013 3

Uma técnica largamente utilizada na comunidade de inteligência artificial, a qual também será explanada neste artigo, emprega modelos artificiais de redes neurais que tem sido muito empregada às tarefas de tomada de decisões, estimação e classificação, principalmente no que diz respeito à classificação não linear.

De acordo com Mota et al. (2011) a ideia de criar um grupo de modelos matemáticos que simule os neurônios humanos é considerada, por muitos cientistas, brilhante e extremamente útil para a tomada de decisão nas mais diversas áreas do conhecimento. Um exemplo disso, Mavromatidisa et al. (2013) desenvolveram uma ferramenta de monitoramento de desempenho e detecção de falhas aplicada a supermercados com foco na avaliação do consumo total de eletricidade e seus sistemas individuais, como refrigeração, climatização, iluminação e caldeira fazendo o uso das Redes Neurais Artificiais (RNA). Em Ghiassi et al. (2012) foi introduzido uma nova abordagem chamada Dan2 (do inglês, Dynamic architecture for artificial neural networks) como uma alternativa para a resolução de problemas de classificação de documentos textuais. Resultados mostraram que tal proposta foi superior as soluções usando tanto K-NN1 quanto SVM2.

O trabalho de Castanheira (2008) objetivou em analisar e comparar a eficiência das técnicas de RNA e árvores de decisões aplicadas ao problema de cromatografia de transformadores de potência. Em geral foi percebida uma maior eficiência nos resultados de diagnósticos utilizando o algoritmo da árvore de decisão. Já na pesquisa de Messias et al. (2012) que é voltada à área de engenharia agrícola, o objetivo foi avaliar a utilização da Rede Neural Artificial para correlacionar os valores resultantes de análises químicas de amostras de café com os valores de sua análise sensorial. Tal abordagem obteve um nível de acerto na classificação dos valores da análise sensorial de 80%.

Portanto, o objetivo do presente trabalho foi analisar qualitativamente a aplicação de classificadores tanto linear quanto não linear empregado em problemas de classificação de classes não facilmente separáveis com foco principal na taxa de erro associado a cada classificador individualmente. Os resultados obtidos mostram que pelo fato de que o classificador não linear usar mais recursos, ele executa melhor a tarefa do que o classificador linear em termos de precisão da separação de classes linearmente não separáveis, como é o caso das RNAs. A estrutura deste artigo é formada por mais três seções principais: materiais e métodos, resultados e discursões e, por fim, conclusão e trabalhos futuros.

2. MATERIAIS E MÉTODOS

Para a realização deste estudo, foram disponibilizadas 1000 amostras sendo 500 delas

rotuladas como “preta” e 500 rotuladas como classe “vermelha”. A base trabalhada aqui é fundamentada no trabalho de Postaire et al. (1993) e sua disposição no espaço R2 dos dados de cada classe lembra o formato de meia lua, como pode ser visto na Figura 2. As simulações foram realizadas utilizando o software livre SciLab® (Scilab,2013) como ferramenta computacional tanto __________________________________________________ K-NN1 – K-Nearest Neighbors algorithm é um método não-paramétrico para classificar objetos com base em padrões mais próximos no espaço de características. SVM2 – Support Vector Machines. Mais informações veja (Hsieh et al, 2008).

Page 4: Submissão (Reparado)UMA ANÁLISE QUALITATIVA DA TAXA DE ERRO GERADA PELO CASSIFICADOR LINEAR E NÃO LINEAR EM PROBLEMA DE MINERAÇÃO DE DADOS

BISPO&FERNANDES JR (2013)

Congresso Norte Nordeste de Pesquisa e Inovação, 2013 4

para o método de Pseudo-inversão quanto para as Redes Neurais. Foram realizados os cálculos das taxas de erros usando o procedimento de Minimização do Erro Quadrático ou MSE (Minimizing the Squared Error, em inglês) encontrado em Duda et al. (2001), a geração das fronteiras de decisões e bem como os gráficos. Além disso, é fácil ver que a distribuição dos dados gera um problema de classes linearmente não separáveis.

Figura 2 - Representação dos dados trabalhados no R2.

A meta nesta seção é construir uma função discriminante que separe as duas classes com o mínimo erro associado e gerar a taxa de erro. Tratar-se-á deste problema utilizando duas ferramentas clássicas de classificação – classificador linear e o classificador não linear sobre o critério de minimização do erro quadrático médio e comparando os resultados obtidos. Para tanto, conceitos básicos sobre Redes Neurais e de Pseudo-inversão são formalmente apresentados e suas principais características são explicitadas, com a finalidade de formar uma base para os experimentos realizados.

2.1. Classificador Linear – Uso da Pseudo-inversão

É fácil ver através da Figura 2 que o problema proposto é de classes linearmente não separáveis. Então, o objetivo é construir um classificador linear ótimo adotando o critério do Mínimo Erro Quadrático, a fim de reduzir ao máximo tal taxa de erro naturalmente existente. O fato é que essa ferramenta, segundo Theodoridis e Koutroumbas (2009), conduzirá a um desempenho sub-ótimo do ponto de vista da probabilidade de erro de classificação.

O objetivo agora é calcular o vetor peso baseado em um critério de otimalidade adequado. No entanto, conviver com erros é inevitável, isto é, a saída verdadeira não será sempre igual à desejada. Para o conjunto de treinamento foram destinados 70% da massa de dados e os 30% restantes para teste (validação). Os erros associados a este classificador será comentado e discutido na seção resultados e discussões deste trabalho. Para melhor entender o método, a modelagem matemática para este caso pode ser representado pela Equação1.

0')( wxwxg , equação (1)

onde x é a matriz de padrões (dados), w o vetor de parâmetros (pesos) determinando a orientação do hiperplano adicionado ao w0 que é o bias ou viés linear responsável pelo

Page 5: Submissão (Reparado)UMA ANÁLISE QUALITATIVA DA TAXA DE ERRO GERADA PELO CASSIFICADOR LINEAR E NÃO LINEAR EM PROBLEMA DE MINERAÇÃO DE DADOS

BISPO&FERNANDES JR (2013)

Congresso Norte Nordeste de Pesquisa e Inovação, 2013 5

deslocamento com relação a origem da função e g(x) é uma função discriminante linear. Matematicamente, o viés linear é necessário para que as fronteiras de decisões obtidas com este modelo possam sair da origem (coeficiente linear), e os pesos w funcionam como coeficiente angular da equação de uma reta.

Para Duda et al. (2001) uma função discriminante linear divide o espaço de características através de um hiperplano, no caso de duas casses como abordado aqui, tal fronteira de decisão é representado na forma de uma reta no espaço <x1, x2>. Acompanhe na Figura 3.

Figura 3 – Limiar de decisão linear para espaço <x1,x2>.

Fonte – (Duda et al, 2001).

A saída desejada será denotada pelo vetor y = ±1. Os valores de y são arbitrários, porém esse vetor terá que conter quaisquer valores positivos/negativos somente (Theodoridis e Koutroumbas, 2009). O interesse agora é calcular o vetor de pesos wi, i = 0, 1 e 2, Equação (2), que define a reta de separação. Para tal, é preciso primeiro calcular o mínimo o erro quadrático médio entre a saída verdadeira g(x) e o desejado y, isto é, pela Equação 3.

).(minarg wJww

equação (2)

,))((1)( 2 n

yxgN

wJ equação (3)

Ainda segundo Duda et al. (2001) o problema de MSE é clássico. Pode ser solucionado através do calculo do gradiente de J visto em (3) e igualando a zero obtendo assim as Equações 4a e 4b respectivamente. Ver desenvolvimento abaixo em forma de matricial:

),(2 YXwXJ t equação (4a)

,YXXwX tt equação (4b)

,)( 1 YXXXw tt equação (4c)

onde (XtX)-1Xt da Equação 4c é conhecida como pseudo-inversa e faz com que w, a solução pelo MSE, sempre exista, uma vez que a pseudo-inversa é uma matriz quadrada e não singular. Para Duda et al. (2001) espera-se que com o critério MSE se obtenha uma função discriminante para ambos os casos de classes separáveis e não separáveis como é possível ver na Figura 4. A tarefa de classificação, agora, é bem simples e dar-se-á via regra.

Page 6: Submissão (Reparado)UMA ANÁLISE QUALITATIVA DA TAXA DE ERRO GERADA PELO CASSIFICADOR LINEAR E NÃO LINEAR EM PROBLEMA DE MINERAÇÃO DE DADOS

BISPO&FERNANDES JR (2013)

Congresso Norte Nordeste de Pesquisa e Inovação, 2013 6

Caso:

Nota 1 – Se g(x) = 0, o padrão encontrar-se-á no hiperplano de decisão. No caso 2D, em uma reta.

Figura 4 – Função discriminante linear g(x) em azul.

2.2. Classificador Não Linear – Redes Neurais

É fácil perceber visualmente que a construção de um classificador linear, mesmo de uma forma optimizada, não leva a um desempenho satisfatório (Theodoridis e Koutroumbas, 2009). O projeto de classificadores não lineares surge agora como uma necessidade inevitável. Para tal, faz-se uso do Multilayer Perceptron (MLP) que é uma rede neural, a qual treina usando a técnica backpropagation discutida em Witten et al. (2011).

Além disso, é necessário empregar uma função que represente a ativação/inativação de um neurônio. Existe algumas funções que são usadas na literatura, a exemplo do tipo degrau, neurônio de McCulloch-Pitts (McCulloch e Pitts, 1943), ou uma função do tipo sigmoide como a logística ou a tangente hiperbólica. A função de ativação não linear para todas as camadas aplicada aqui (desde a escondida até a de saída) é a tangente hiperbólica da família das sigmoides, dada pela Equação 5, a qual é a mais usada em redes neurais, em que o valor de f(x) é limitado entre +1 e -1.

,)exp()exp()exp()exp()(

xxxxxf

equação (5)

Para separar as duas classes da Figura 2, seguindo os passos de Duda et al. (2001) cada elemento da i-ésima linha da matriz de dados (vetor x = [x1 x2]) é aplicado à camada de entrada da rede. Cada elemento é multiplicado por um respectivo peso wji ,onde neste trabalho foi adotado que i = 1, 2 e j = 1, 2,..., Nh sendo Nh = 30 a quantidade de unidades na camada

"_"__,00 pretoxwxwt

"._"__,00 vermelhoxwxwt

Page 7: Submissão (Reparado)UMA ANÁLISE QUALITATIVA DA TAXA DE ERRO GERADA PELO CASSIFICADOR LINEAR E NÃO LINEAR EM PROBLEMA DE MINERAÇÃO DE DADOS

BISPO&FERNANDES JR (2013)

Congresso Norte Nordeste de Pesquisa e Inovação, 2013 7

escondidas. Para cada j o produto interno do vetor x com os pesos wji, como na Equação 6,

,2

10

i

jjiij wwxg equação (6)

dará um escalar, o qual será mapeado através da função de ativação não linear da Equação 7.

.0)(1

0)(1)(

xgif

xgifgfr jj equação (7)

A seguir na Equação 8, pode-se verificar que para cada unidade de saída o cálculo procede da mesa forma. Como nesta etapa existe apenas uma camada de saída k =1, os valores de classificação estarão entre 1 e -1. Analisar Equação 9.

,30

10

j

kkjjk wwrs equação (8)

).( ksfy equação (9)

Para o treinamento foram destinados 70% da massa de dados e os 30% restantes para teste como feito no classificador linear. Assim, para Duda et al. (2001), um dado do treinamento que é apresentado na entrada da rede, passa pela camada escondida e o resultado é obtido na camada de saída. Esse resultado é comparado com o valor desejado e qualquer diferença corresponde ao erro da rede. A meta é ter esse erro, que é função dos pesos w, minimizado, assim, o valor de saída da rede se aproxima do valor desejado.

Para isso, adota-se o critério do MSE da Equação (2) como função de custo. Segundo Theodoridis e Koutroumbas (2009) tal minimização da função de custo pode ser atingida via técnica iterativa e o valor dos pesos é atualizado. Aqui será adotado o método do gradiente descendente, conforme a Equação 10, que é a abordagem mais empregada.

wJww velhonovo

. equação (10)

Minimizando o erro quadrático médio, encontram-se os valores dos pesos w ótimos. Portanto, se ocorrer uma mudança no valor de w na direção oposta à do gradiente (gradiente negativo) isso levará a função de erro ao seu ponto de máxima redução, minimizando assim o erro.

Como o foco do trabalho não é a construção passo-a-passo do algoritmo backpropagation e sim a análise da taxa de erro adotando esse método, preocupar-se-á para o momento, em encontrar a função discriminante, a qual pode ser observada na Figura 5 a seguir. Os valores de J e a taxa de erro serão discutidos na seção resultados e comparados com o resultado do classificador linear.

Porém, é importante salientar que o método gradiente descendente somente encontra um mínimo local, então, corre-se o risco de não encontrar um mínimo melhor. Por fim, uma vez que a rede estiver pronta, os valores dos pesos ficam congelados, e a rede está pronta para a classificação (Theodoridis e Koutroumbas, 2009).

Page 8: Submissão (Reparado)UMA ANÁLISE QUALITATIVA DA TAXA DE ERRO GERADA PELO CASSIFICADOR LINEAR E NÃO LINEAR EM PROBLEMA DE MINERAÇÃO DE DADOS

BISPO&FERNANDES JR (2013)

Congresso Norte Nordeste de Pesquisa e Inovação, 2013 8

Figura 5 – Fronteira de decisão não linear em azul.

3. RESULTADOS E DISCUSSÃO

Os resultados dos experimentos são mostrados em tabela. Cada classificador é simulado por 10 vezes com uma nova amostragem dos conjuntos de dados de treinamento e de teste. Nas simulações envolvendo as redes neurais, foi utilizada 1 camada oculta com 30 neurônios e taxa de aprendizado 0.3. Esse número de neurônios na camada oculta foi escolhido via método experimental como em Mavromatidisa et al. (2013). Da mesma forma, o valor da taxa de aprendizado escolhido se mostrou mais eficiente na redução do MSE no conjunto de teste.

Tabela 1 - Relação de desempenho entre as duas técnicas para a classificação do conjunto de teste. Medidas de erro de classificação, média e desvio padrão de erros após 10 simulações.

Linear Não Linear Linear Não Linear 1 24 10 6 25 5 2 21 4 7 24 3 3 22 7 8 37 8 4 30 12 9 24 7 5 23 11 10 32 19

Média do C. Linear D. P. Média do C. não Linear D. P. 26 5 8,6 4.69

Na Tabela 1 acima é apresentada a taxa de erro associado a cada classificador. Também é mostrado uma média aritmética e o desvio padrão dos resultados do teste após essas 10 simulações. É fácil ver que o classificador que apresenta melhor desempenho é o não linear. Isso porque o problema aqui tratado é de classe não linearmente separável. A média de erros em 10 simulações para o classificador não linear usando Rede Neural é de apenas 8,6 para uma massa de teste de 300 dados. A sua dispersão é aproximadamente 4,69. Esse valor de dispersão reflete ao fato que cada simulação gera uma nova base de teste e de treinamento e, portanto sua taxa de erro é imprevisível, porém muito pequena.

Já o classificador linear em suas 10 simulações apresenta uma média de erros próximo a 3 vezes maior comparado com a do classificador não linear. Sua dispersão é aproximadamente 5, a

Page 9: Submissão (Reparado)UMA ANÁLISE QUALITATIVA DA TAXA DE ERRO GERADA PELO CASSIFICADOR LINEAR E NÃO LINEAR EM PROBLEMA DE MINERAÇÃO DE DADOS

BISPO&FERNANDES JR (2013)

Congresso Norte Nordeste de Pesquisa e Inovação, 2013 9

qual é maior que a do não linear. Esse classificador não considera pontos pertencentes a classes opostas que estão muito próximos entre si, o que produz muitos erros de classificação. Acompanhe a tabela. A qualidade do classificador baseado em RNA em relação ao outro trabalhado está no fato que a função custo (MSE) está sendo minimizado e os valores do vetor w estão em constante atualização pelo método gradiente descendente.

O melhor desempenho do (MSE) na fase de treinamento ocorreu na sétima simulação do classificador não linear com valor de 0.04. Seu respectivo gráfico e valor são mostrados na Figura 6. Verifica-se o comportamento natural do aprendizado de uma rede neural por backpropagation. Enquanto o erro médio vai sendo minimizado em relação à base de treinamento (com alguns saltos devido à maneira da procura do mínimo da função e sua taxa de aprendizado), o erro na base de teste tende a subir depois de encontrado o erro mínimo (após a época 150), caracterizando a especialização dos dados na base de treinamento. É devido a este comportamento que foram escolhidos como os melhores parâmetros os encontrado na época 150.

Note que ao utilizar apenas um neurônio, as fronteiras de decisões seriam lineares. No entanto, a partir de um neurônio artificial se pode pensar em construir uma rede de neurônios conectados entre si que unem seus resultados processados podendo trançar fronteiras não lineares. Contudo, tal desempenho não é obtido quando se aumenta muito a quantidade de neurônios e diminui a quantidade de épocas de treinamento para tratar do mesmo problema. A taxa de erro aumenta, pois o classificador acaba perdendo a generalização e se especializa nos dados de treinamento.

Figura 6– Desempenho com 30 neurônios. MSE vs. Época (experimento7).

4. CONCLUSÃO

Neste trabalho foram comparados exaustivamente os dois tipos classificadores, no sentido

de apurar quais dos dois possuem melhores performances qualitativa no que diz respeito ao erro gerado, para serem utilizados na resolução de difíceis problemas classes não separável no dia-a-

Page 10: Submissão (Reparado)UMA ANÁLISE QUALITATIVA DA TAXA DE ERRO GERADA PELO CASSIFICADOR LINEAR E NÃO LINEAR EM PROBLEMA DE MINERAÇÃO DE DADOS

BISPO&FERNANDES JR (2013)

Congresso Norte Nordeste de Pesquisa e Inovação, 2013 10

dia. Além disso, buscou-se encontrar uma fronteira decisão gráfica que pudesse classificar os padrões da base utilizando o critério de minimização do erro quadrático médio.

Constatou-se até aqui a grande vantagem do classificador não linear baseado em Rede Neural para o problema especificado na Figura 2. Tal método apresentou baixa taxa de erro de classificação como visto na tabela 1 e é uma das ferramentas mais aplicadas em problemas reais. Como extensão do trabalho, pode-se implementar do algoritmo de aprendizado da Rede Neural de múltiplas camadas incrementando o fator de inércia, ou momentum, que possibilita que processo iterativo de aprendizagem não fique “preso” em um mínimo local e busque sempre o mínimo global da função de custo. Outra abordagem para trabalhos futuro pode ser em comparar, com a mesma base de dados, os resultados encontrados neste artigo com os de um SVM linear vs. SVM não linear. Talvez ainda comparar a desempenho com a de outros classificadores que não utilizem otimização de função e sim uma abordagem estatística.

AGRADECIMENTOS

À CAPES pelo apoio financeiro, o qual viabilizou o trabalho.

REFERÊNCIAS

1. Castanheira L. G.. Aplicação de Técnicas de Mineração de Dados em Problemas de Classificação de Padrões. Dissertação de Mestrado. Departamento de Engenharia Elétrica – UFMG, 2008.

2. Duda, R. O; Hart, P. E. and Stork, D. G.. Pattern Classification, 2nd ed., 2001. 654 p.

3. Fan R.-E., Chang K.-W., Hsieh C.-J., Wang X.-R. e Lin C.-J.. “LIBLINEAR: A library for large linear classification,” Journal of Machine Learning Research, vol. 9, pp. 1871–1874, 2008. [Online]. Disponível em: http://www.csie.ntu.edu.tw/_cjlin/papers/liblinear.pdf. Acesso em: 18 Ago. 2013.

4. Ghiassi M., Olschimke M., Moon B., Arnaudo P. Automated Text Classification Using A Dynamic Artificial Neural Network Model. Expert Systems with Applications 39, 2012. 10967–10976.

5. Gonçalves, V. F. C.. Análise comparativa dos classificadores Máquinas de Suporte Vectorial e Redes Neuronais Artificiais: Aplicação na detecção de Peões e Veículos, Dissertação de Mestrado em Engenharia Eletrotécnica e de Computadores, Coimbra-PT, 2010.

6. Hsieh C.-J., Chang K.-W., Lin C.-J., Keerthi S. S. e Sundararajan S.. A dual coordinate descent method for large-scale linear SVM. In Proceedings of the Twenty Fifth International Conference on Machine Learning (ICML), 2008. [Online]. Disponível em: http://www.csie.ntu.edu.tw/_cjlin/papers/cddual.pdf. Acesso em: 18 Ago. 2013.

7. Mavromatidisa G., Achab S., Shahb N. Diagnostic tools of energy performance for supermarkets using Artificial Neural Network algorithms. Energy and Buildings v. 62, 304–314, 2013.

Page 11: Submissão (Reparado)UMA ANÁLISE QUALITATIVA DA TAXA DE ERRO GERADA PELO CASSIFICADOR LINEAR E NÃO LINEAR EM PROBLEMA DE MINERAÇÃO DE DADOS

BISPO&FERNANDES JR (2013)

Congresso Norte Nordeste de Pesquisa e Inovação, 2013 11

8. McCulloch, W. S. e Pitts, W. A logical calculus of ideas imminent in nervous activity. Bulletin of Mathematical Biophysics, 5:115-133, 1943.

9. Messias J. A. T., Melo E. C., Filho A. F. L., Braga J. L. e Cecon P. R.. Determination of the Influence of the Variation of Reducing and Non-Reducing Sugars on Coffee Quality With Use of Artificial Neural Network. Eng. Agríc., Jaboticabal, v.32, n.2, p.354-360, 2012.

10. Mota, J. F., Siqueira, P. H., Souza, L. V., Vitor, A.. Uma Rede Neural de base radial baseada em computação evolucionária. XXXII CILAMCE, Ouro Preto-MG, 2011.

11. Postaire, J.-G., Zhang, R.D., Lecocq-Botte, C.. Cluster analysis by binary morphology. IEEE Trans. Pattern Anal. Machine Intell. 15 (2), 170–180, 1993.

12. SCILAB. The Free Platform for Numerical Computation. Disponível em: <http://www.scilab.org>. Acesso: 11 de set. 2013.

13. Semolini, R.. Support Vector Machines, Inferência Transdutiva e o Problema de Classificação. Dissertação de Mestrado em Engenharia Elétrica, Campinas-SP, 2002.

14. Theodoridis, S. e Koutroumbas, K.. Pattern Recognition, 4th ed., 2009.

15. Witten, I. H; Hall, M. A. e Frank, E.. Data Mining Practical Machine Learning Tools and techniques, 3rd ed., 2011.

16. Yuan G.-X., Ho C.-H. e Lin C.-J.. Recent Advances of Large-scale Linear Classification. Department of Computer Science, National Taiwan University, Taipei, 2012.