Sistemas Inteligentes para Textos da Web

Post on 24-Jun-2015

123 views 3 download

description

Sistemas Inteligentes para Textos da Web apresentado no V Seminário de Pesquisa da Estácio

Transcript of Sistemas Inteligentes para Textos da Web

Sistemas Inteligentes para Textos da WEB

Dr. Eng. Fernando Hideo Fukuda Centro de Conhecimento em Tecnologias da Estácio

Agência de Desenvolvimento e Inovação Tecnológica da Estácio Trabalho aprovado para apresentação oral

26 de outubro de 2013

Categoria

• Dissertação de Mestrado em Sistemas de Computação pelo Departamento de Engenharia Elétrica da PUC/RJ aprovada em 7 de abril de 1999

• Mestrado realizado com bolsa de estudos da CAPES.

• Orientador: Prof. Dr. Emmanuel L. P. Passos

Objetivos

• O objetivo principal deste artigo é investigar a aplicação de algoritmos e técnicas de inteligência computacional para o

tratamento e seleção de documentos textuais da Internet encontrados na WWW (World Wide Web), bem como a construção de um protótipo para avaliar estas técnicas.

Objetivos

• As técnicas de inteligência computacional

pesquisadas são baseadas em KDD, Sistemas Especialistas e Redes Neurais para a

avaliação de textos da Web sem a

necessidade de um PLN, tornando-as independentes da linguagem natural escrita utilizada nos textos.

Processos de KDD / KDT

• A WEB pode ser considerada como um enorme Data Warehouse.

• Assim, aplicamos os conceitos de KDD (Knowlegde Discovery in Database) para avaliação dos textos da WEB.

• KDT (Knowledge Discovery in Text) é um novo ramo do KDD, específico para descoberta de conhecimentos em texto.

Processos de KDD / KDT

• Definição do problema – Avaliar e selecionar os textos da WEB baseado

em um perfil de interesse.

Data Cleansing (Limpeza dos Dados) – Extração das tags HTML e DHTML;

– Extração dos códigos de scripts: • Javascript

• VBscript,

– Extração das referências às imagens e links;

Processos de KDD / KDT

– Conversão dos caracteres com acentuação estendida na codificação ISO Latin-1 para a codificação ASC-II;

• Inform&aacutetica Informática

– Conversão dos caracteres minúsculos para maiúsculos para normalização textual.

• Informática INFORMÁTICA

Processos de KDD / KDT

Data Selection (Seleção dos Dados) – Nesta etapa os ruídos são eliminados do

texto, mantendo-se apenas os termos significativos.

– No modo de treinamento é feita a seleção dos exemplos POSITIVOS e NEGATIVOS.

Data Reduction (Redução dos Dados) – A redução da quantidade de termos do texto

é obtida através do dicionário de sinônimos.

Sistemas Especialistas

• RUÍDOS – SE termo = “DE”

– ENTÃO é ruído e elimina da avaliação do texto

• SINÔNIMOS – SE termo = ”VOLLEY” ou termo =

”VOLLEYBALL” ou termo = ”VOLLEYBOL” ou termo = ”VOLEI” ou termo = VOLEYBALL” ou termo = ”VOLEYBOL”

– ENTÃO termo = “VOLEIBOL”

Processos de KDD / KDT

Data Representation (Representação dos Dados)

– Nesta fase são realizadas as avaliações dos:

• TERMOS

• RELACIONAMENTOS DE TERMOS

• PROXIMIDADES DE RELACIONAMENTOS

de cada texto.

Processos de KDD / KDT

Knowledge Learning (Aquisição do Conhecimento)

Modo de treinamento

– As avaliações dos termos, relacionamentos e proximidades de cada texto são armazenadas na base positiva ou negativa e processadas para formar a Base de Conhecimentos sobre o perfil de interesse.

Processos de KDD / KDT

Data Representation (Representação dos Dados)

– Nesta fase é realizada a avaliação das CARACTERÍSTICAS do texto em função da Base de Conhecimentos, cujos resultados numéricos representam o texto e são fornecidos como entrada da rede neural.

Processos de KDD / KDT

Model and Architecture Selection (Seleção do Modelo e da Arquitetura)

Modo de treinamento

– Foi escolhida a técnica de REDES NEURAIS, tendo-se em vista que estas dispensam a modelagem do algoritmo de avaliação do problema pelo especialista.

Processos de KDD / KDT

Knowledge Learning (Aquisição do Conhecimento)

Modo de treinamento

– Nesta etapa é realizado o treinamento da REDE NEURAL com os padrões de treinamento obtido do conjunto de textos fornecido pelo usuário para a Aquisição dos Conhecimentos das Características de um determinado perfil.

Processos de KDD / KDT

Classification (Classificação)

– A Rede Neural executa a Classificação dos textos em função das Avaliações das Características.

Data Mining (Mineração de Dados) ou Text Mining (Mineração de Texto)

– A interpretação da saída da rede neural representa a classificação do texto.

Processos de KDD / KDT

Knowledge Discovery (Descoberta do Conhecimento)

– Descobre-se, nesta última etapa do KDD, se o texto está de acordo ou não com o perfil de interesse.

Redes Neurais

• Neste trabalho foram investigadas as redes de treinamento supervisionado do tipo feedfoward com algoritmo backpropagation, devido a sua consagrada característica de classificador universal.

Técnicas de avaliação de textos da WEB

Termo

– Pode ser uma palavra, raiz de uma palavra, fragmento de palavra ou fragmento do texto.

Ruídos

– São termos comuns e por isso não possuem utilidade na pesquisa, já que estarão contidos na maioria dos documentos. Geralmente são artigos, conjunções, pronomes, numerais, símbolos, pontuações, letras isoladas.

Técnicas de avaliação de textos da WEB

Relacionamento entre termos

– Os termos contidos em um mesmo fragmento de texto (parágrafo ou documento), geralmente estão relacionados em um fragmento para expressar um determinado conceito.

– Logo, a ocorrência destes relacionamentos recebe uma pontuação para indicar o fortalecimento deste conceito no texto.

Técnicas de avaliação de textos da WEB

Proximidade

– Os operadores de proximidade localizam termos ou relacionamentos de termos dentro de uma certa distância entre si.

– A distância é medida em quantidade de termos, sentenças, parágrafos ou unidades de estruturas.

– Neste trabalho é medida a distância em parágrafos entre relacionamentos de termos.

Técnicas de avaliação de textos da WEB

Pesquisa ponderada

– A pesquisa ponderada é baseada numa pontuação (pesos) para medir o quanto um documento se enquadra numa consulta.

– Este processo é muito útil quando a pesquisa é realizada em grandes bases de documentos.

Técnicas de avaliação de textos da WEB

• Métodos de pesquisa ponderada

– Contagem do número de documentos que apresentam o termo;

– Contagem do número de ocorrências de cada termo ou padrão.

– Combinação de estratégias, onde cada termo ou padrão recebe um peso, o qual é multiplicado pela quantidade de ocorrências.

Modelagem do SITEX

• Objetivos:

– Realizar a conexão de acesso discado à Internet;

– Realizar a conexão à Web através do protocolo HTTP baseado no TCP/IP;

– Obter a página HTML na URL especificada;

– Navegar na WWW (Web) através dos links hipertexto da página HTML;

Modelagem do SITEX

• Objetivos:

– Abrir e salvar páginas HTML;

– Interpretar os comandos HTML da página;

– Apresentar a página HTML para visualização gráfica no video;

– Extrair o texto da página HTML sem: tags, scripts, referências e links;

– Converter as acentuações codificadas em ISO Latin-1 para ASCII;

Modelagem do SITEX

• Objetivos:

– Extrair o texto sem os ruídos;

– Substituir os sinônimos dos termos;

– Normalizar os termos;

– Abrir e salvar arquivos texto;

– Criar a Base de Conhecimento para um perfil de interesse;

Modelagem do SITEX

• Objetivos:

– Analisar as Características textuais do texto;

– Armazenar e recuperar o perfil do usuário;

– Avaliar o texto em função do perfil de interesse;

Algoritmo do SITEX

• Modo de Treinamento

• Modo de Produção

Algoritmo do SITEX

• Modo de Treinamento

– Avaliação de Termos, Relacionamentos e Proximidades

– Criação da Base de Conhecimentos

– Avaliação das Características Textuais

– Treinamento da Rede Neural

– Validação dos Resultados

Algoritmo do SITEX

• Modo de Produção

– Avaliação de Termos, Relacionamentos e Proximidades

– Avaliação das Características Textuais

– Execução da Rede Neural

– Verificação dos Resultados

Modo de Treinamento

Modo de Treinamento Filtro/Extrator/Conversor

DOCUMENTOS EXEMPLOS (positivos e negativos)

FILTRO DE TAGS HTML E DHTML

CONVERSOR DE ACENTUAÇÃO

Modo de Treinamento Filtro/Extrator/Conversor

CONVERSOR minúsculo MAIÚSCULO

EXTRATOR DE TERMOS (eliminador de ruídos)

TERMOS

ELIMINADOR DE SINÔNIMOS

Modo de Treinamento Termos

QUANT. DE OCORRÊNCIA DE TERMOS

EXTRATOR DE TERMOS SIGNIFICATIVOS (quant. >= média de quant.)

PESOS DOS TERMOS SIGNIFICATIVOS (quant. / menor quant.)

TERMO QUANT PESO

Modo de Treinamento Parágrafos

DEFINIÇÃO DOS PARÁGRAFOS DOS TERMOS

TERMO PARÁGRAFO

Modo de Treinamento Relacionamentos

QUANT. DE RELACIONAMENTOS DE TERMOS

EXTRATOR DE RELACIONAMENTOS SIGNIFICATIVOS (quant. >= média de quant.)

PESOS DOS RELACIONAMENTOS SIGNIFICATIVOS (quant. / menor quant.)

TERMO2 QUANT PESO TERMO1

Modo de Treinamento Proximidades

DISTÂNCIAS MÉDIAS DE RELACIONAMENTOS DE TERMOS

EXTRATOR DE DISTÂNCIAS MÉDIAS SIGNIFICATIVAS DE RELACIONAMENTOS (dist. média <= média de dist. média)

PESOS DAS DISTÂNCIAS MÉDIAS SIGNIFICATIVAS DE RELACIONAMENTOS (maior dist. / dist. média)

TERMO2 DIST PESO TERMO1

Base de Conhecimentos

Modo de Treinamento Criação da Base de Conhecimentos

TERMO QUANT PESO

TERMO PESO TOT

Modo de Treinamento Criação da Base de Conhecimentos

Base de Conhecimentos

TERMO QUANT PESO

TERMO PESO TOT

Base de Conhecimentos

Modo de Treinamento Criação da Base de Conhecimentos

TERMO2 QUANT PESO TERMO1

TERMO2 PESO TOT TERMO1

Modo de Treinamento Criação da Base de Conhecimentos

Base de Conhecimentos

TERMO2 QUANT PESO TERMO1

TERMO2 PESO TOT TERMO1

Base de Conhecimentos

Modo de Treinamento Criação da Base de Conhecimentos

TERMO2 DIST PESO TERMO1

TERMO2 PESO TOT TERMO1

Modo de Treinamento Criação da Base de Conhecimentos

Base de Conhecimentos

TERMO2 DIST PESO TERMO1

TERMO2 PESO TOT TERMO1

Modo de Treinamento Criação da Base de Conhecimentos

Base de Conhecimentos

TERMO PESO TOT

TERMO PESO MED

/ quant. exemplos positivos

Base de Conhecimentos

Modo de Treinamento Criação da Base de Conhecimentos

TERMO PESO TOT

TERMO PESO MED

/ quant. exemplos negativos

Modo de Treinamento Criação da Base de Conhecimentos

Base de Conhecimentos

TERMO2 PESO TOT TERMO1

TERMO2 PESO MED TERMO1

/ quant. exemplos positivos

Base de Conhecimentos

TERMO2 PESO TOT TERMO1

TERMO2 PESO MED TERMO1

/ quant. exemplos negativos

Modo de Treinamento Criação da Base de Conhecimentos

Modo de Treinamento Criação da Base de Conhecimentos

Base de Conhecimentos

TERMO2 PESO TOT TERMO1

TERMO2 PESO MED TERMO1

/ quant. exemplos positivos

Base de Conhecimentos

TERMO2 PESO TOT TERMO1

TERMO2 PESO MED TERMO1

/ quant. exemplos negativos

Modo de Treinamento Criação da Base de Conhecimentos

Modo de Treinamento Criação da Base de Conhecimentos

Base de Conhecimentos

TERMO2 PESO MED TERMO1

TERMO2 PESO MED TERMO1

TERMO PESO MED

TERMO2 PESO MED TERMO1

TERMO2 PESO MED TERMO1

TERMO PESO MED

D

R

T

D

R

T

Modo de Treinamento Filtro/Extrator/Conversor

DOCUMENTOS EXEMPLOS (positivos e negativos)

FILTRO DE TAGS HTML E DHTML

CONVERSOR DE ACENTUAÇÃO

Modo de Treinamento Filtro/Extrator/Conversor

CONVERSOR minúsculo MAIÚSCULO

EXTRATOR DE TERMOS (eliminador de ruídos)

TERMOS

ELIMINADOR DE SINÔNIMOS

Modo de Treinamento Termos

QUANT. DE OCORRÊNCIA DE TERMOS

EXTRATOR DE TERMOS SIGNIFICATIVOS (quant. >= média de quant.)

PESOS DOS TERMOS SIGNIFICATIVOS (quant. / menor quant.)

TERMO QUANT PESO

Modo de Treinamento Avaliação de TP

TERMO PESO MED

TERMO PESO MED

T

T

TERMO QUANT PESO

TP = ( quant (PM - PM) ) / quant de termos do texto na base positiva

Modo de Treinamento Avaliação de TN

TERMO PESO MED

TERMO PESO MED

T

T

TERMO QUANT PESO

TN = ( quant (PM - PM) ) / quant de termos do texto na base negativa

Modo de Treinamento Parágrafos

DEFINIÇÃO DOS PARÁGRAFOS DOS TERMOS

TERMO PARÁGRAFO

Modo de Treinamento Relacionamentos

QUANT. DE RELACIONAMENTOS DE TERMOS

EXTRATOR DE RELACIONAMENTOS SIGNIFICATIVOS (quant. >= média de quant.)

PESOS DOS RELACIONAMENTOS SIGNIFICATIVOS (quant. / menor quant.)

TERMO2 QUANT PESO TERMO1

Modo de Treinamento Avaliação de RP

TERMO2 PESO MED TERMO1

TERMO2 PESO MED TERMO1

R

R

TERMO2 QUANT PESO TERMO1

RP = ( quant (PM - PM) ) / quant de relacionamentos do texto na base positiva

Modo de Treinamento Avaliação de RN

TERMO2 PESO MED TERMO1

TERMO2 PESO MED TERMO1

R

R

TERMO2 QUANT PESO TERMO1

RN = ( quant (PM - PM) ) / quant de relacionamentos do texto na base negativa

Modo de Treinamento Proximidades

DISTÂNCIAS MÉDIAS DE RELACIONAMENTOS DE TERMOS

EXTRATOR DE DISTÂNCIAS MÉDIAS SIGNIFICATIVAS DE RELACIONAMENTOS (dist. média <= média de dist. média)

PESOS DAS DISTÂNCIAS MÉDIAS SIGNIFICATIVAS DE RELACIONAMENTOS (maior dist. / dist. média)

TERMO2 DIST PESO TERMO1

Modo de Treinamento Avaliação de DP

TERMO2 PESO MED TERMO1

TERMO2 PESO MED TERMO1

R

R

TERMO2 QUANT PESO TERMO1

DP = ( quant (PM - PM) ) / quant de proximidades do texto na base positiva

Modo de Treinamento Avaliação de DN

TERMO2 PESO MED TERMO1

TERMO2 PESO MED TERMO1

R

R

TERMO2 QUANT PESO TERMO1

DN = ( quant (PM - PM) ) / quant de proximidades do texto na base negativa

Modo de Treinamento Treinamento da Rede Neural

TP RP DP TN RN DN

.............................

1 ou 0

Modo de Produção

Modo de Produção Filtro/Extrator/Conversor

DOCUMENTOS

FILTRO DE TAGS HTML E DHTML

CONVERSOR DE ACENTUAÇÃO

Modo de Produção Filtro/Extrator/Conversor

CONVERSOR minúsculo MAIÚSCULO

EXTRATOR DE TERMOS (eliminador de ruídos)

TERMOS

ELIMINADOR DE SINÔNIMOS

Modo de Produção Termos

QUANT. DE OCORRÊNCIA DE TERMOS

EXTRATOR DE TERMOS SIGNIFICATIVOS (quant. >= média de quant.)

PESOS DOS TERMOS SIGNIFICATIVOS (quant. / menor quant.)

TERMO QUANT PESO

Modo de Produção Avaliação de TP

TERMO PESO MED

TERMO PESO MED

T

T

TERMO QUANT PESO

TP = ( quant (PM - PM) ) / quant de termos do texto na base positiva

Modo de Produção Avaliação de TN

TERMO PESO MED

TERMO PESO MED

T

T

TERMO QUANT PESO

TN = ( quant (PM - PM) ) / quant de termos do texto na base negativa

Modo de Produção Parágrafos

DEFINIÇÃO DOS PARÁGRAFOS DOS TERMOS

TERMO PARÁGRAFO

Modo de Produção Relacionamentos

QUANT. DE RELACIONAMENTOS DE TERMOS

EXTRATOR DE RELACIONAMENTOS SIGNIFICATIVOS (quant. >= média de quant.)

PESOS DOS RELACIONAMENTOS SIGNIFICATIVOS (quant. / menor quant.)

TERMO2 QUANT PESO TERMO1

Modo de Produção Avaliação de RP

TERMO2 PESO MED TERMO1

TERMO2 PESO MED TERMO1

R

R

TERMO2 QUANT PESO TERMO1

RP = ( quant (PM - PM) ) / quant de relacionamentos do texto na base positiva

Modo de Produção Avaliação de RN

TERMO2 PESO MED TERMO1

TERMO2 PESO MED TERMO1

R

R

TERMO2 QUANT PESO TERMO1

RN = ( quant (PM - PM) ) / quant de relacionamentos do texto na base negativa

Modo de Produção Proximidades

DISTÂNCIAS MÉDIAS DE RELACIONAMENTOS DE TERMOS

EXTRATOR DE DISTÂNCIAS MÉDIAS SIGNIFICATIVAS DE RELACIONAMENTOS (dist. média <= média de dist. média)

PESOS DAS DISTÂNCIAS MÉDIAS SIGNIFICATIVAS DE RELACIONAMENTOS (maior dist. / dist. média)

TERMO2 DIST PESO TERMO1

Modo de Produção Avaliação de DP

TERMO2 PESO MED TERMO1

TERMO2 PESO MED TERMO1

R

R

TERMO2 QUANT PESO TERMO1

DP = ( quant (PM - PM) ) / quant de proximidades do texto na base positiva

Modo de Produção Avaliação de DN

TERMO2 PESO MED TERMO1

TERMO2 PESO MED TERMO1

R

R

TERMO2 QUANT PESO TERMO1

DN = ( quant (PM - PM) ) / quant de proximidades do texto na base negativa

Modo de Produção Execução da Rede Neural

TP RP DP TN RN DN

.............................

1 ou 0

Resultados

• Tecnologia da Informação

• Taxa de acertos sobre todos os arquivos: 93,15%

• Taxa de acertos sobre arq. dentro do perfil: 83,33%

• Taxa de acertos sobre arq. fora do perfil: 96,36%

Conclusões

• As principais contribuições deste trabalho foram:

– o desenvolvimento de técnicas inéditas de KDD / KDT e

– o desenvolvimento de algoritmos inéditos de avaliação de textos da WEB para um perfil de interesse.

Produções Científicas

• Artigo aprovado no Data Mining 2000, Cambridge University, UK

• Capítulo do livro Data Mining II

Produções Científicas

• Artigo aprovado no SBRN RIO 2000

Produções Científicas

Contato

Dr. Fernando Hideo Fukuda

Diretor Executivo da Agência de Desenvolvimento e Inovação Tecnológica da Estácio (ADITEC-ESTÁCIO)

Diretor do Centro de Conhecimento em Tecnologias

E-mail: fernando.fukuda@estacio.br

Tel.: +55 (21) 2503-7076

Cel.: +55 (21) 98496-7098