Sistemas Inteligentes para Textos da Web
-
Upload
fernando-hideo-fukuda -
Category
Technology
-
view
123 -
download
3
description
Transcript of Sistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WEB
Dr. Eng. Fernando Hideo Fukuda Centro de Conhecimento em Tecnologias da Estácio
Agência de Desenvolvimento e Inovação Tecnológica da Estácio Trabalho aprovado para apresentação oral
26 de outubro de 2013
Categoria
• Dissertação de Mestrado em Sistemas de Computação pelo Departamento de Engenharia Elétrica da PUC/RJ aprovada em 7 de abril de 1999
• Mestrado realizado com bolsa de estudos da CAPES.
• Orientador: Prof. Dr. Emmanuel L. P. Passos
Objetivos
• O objetivo principal deste artigo é investigar a aplicação de algoritmos e técnicas de inteligência computacional para o
tratamento e seleção de documentos textuais da Internet encontrados na WWW (World Wide Web), bem como a construção de um protótipo para avaliar estas técnicas.
Objetivos
• As técnicas de inteligência computacional
pesquisadas são baseadas em KDD, Sistemas Especialistas e Redes Neurais para a
avaliação de textos da Web sem a
necessidade de um PLN, tornando-as independentes da linguagem natural escrita utilizada nos textos.
Processos de KDD / KDT
• A WEB pode ser considerada como um enorme Data Warehouse.
• Assim, aplicamos os conceitos de KDD (Knowlegde Discovery in Database) para avaliação dos textos da WEB.
• KDT (Knowledge Discovery in Text) é um novo ramo do KDD, específico para descoberta de conhecimentos em texto.
Processos de KDD / KDT
• Definição do problema – Avaliar e selecionar os textos da WEB baseado
em um perfil de interesse.
Data Cleansing (Limpeza dos Dados) – Extração das tags HTML e DHTML;
– Extração dos códigos de scripts: • Javascript
• VBscript,
– Extração das referências às imagens e links;
Processos de KDD / KDT
– Conversão dos caracteres com acentuação estendida na codificação ISO Latin-1 para a codificação ASC-II;
• Informática Informática
– Conversão dos caracteres minúsculos para maiúsculos para normalização textual.
• Informática INFORMÁTICA
Processos de KDD / KDT
Data Selection (Seleção dos Dados) – Nesta etapa os ruídos são eliminados do
texto, mantendo-se apenas os termos significativos.
– No modo de treinamento é feita a seleção dos exemplos POSITIVOS e NEGATIVOS.
Data Reduction (Redução dos Dados) – A redução da quantidade de termos do texto
é obtida através do dicionário de sinônimos.
Sistemas Especialistas
• RUÍDOS – SE termo = “DE”
– ENTÃO é ruído e elimina da avaliação do texto
• SINÔNIMOS – SE termo = ”VOLLEY” ou termo =
”VOLLEYBALL” ou termo = ”VOLLEYBOL” ou termo = ”VOLEI” ou termo = VOLEYBALL” ou termo = ”VOLEYBOL”
– ENTÃO termo = “VOLEIBOL”
Processos de KDD / KDT
Data Representation (Representação dos Dados)
– Nesta fase são realizadas as avaliações dos:
• TERMOS
• RELACIONAMENTOS DE TERMOS
• PROXIMIDADES DE RELACIONAMENTOS
de cada texto.
Processos de KDD / KDT
Knowledge Learning (Aquisição do Conhecimento)
Modo de treinamento
– As avaliações dos termos, relacionamentos e proximidades de cada texto são armazenadas na base positiva ou negativa e processadas para formar a Base de Conhecimentos sobre o perfil de interesse.
Processos de KDD / KDT
Data Representation (Representação dos Dados)
– Nesta fase é realizada a avaliação das CARACTERÍSTICAS do texto em função da Base de Conhecimentos, cujos resultados numéricos representam o texto e são fornecidos como entrada da rede neural.
Processos de KDD / KDT
Model and Architecture Selection (Seleção do Modelo e da Arquitetura)
Modo de treinamento
– Foi escolhida a técnica de REDES NEURAIS, tendo-se em vista que estas dispensam a modelagem do algoritmo de avaliação do problema pelo especialista.
Processos de KDD / KDT
Knowledge Learning (Aquisição do Conhecimento)
Modo de treinamento
– Nesta etapa é realizado o treinamento da REDE NEURAL com os padrões de treinamento obtido do conjunto de textos fornecido pelo usuário para a Aquisição dos Conhecimentos das Características de um determinado perfil.
Processos de KDD / KDT
Classification (Classificação)
– A Rede Neural executa a Classificação dos textos em função das Avaliações das Características.
Data Mining (Mineração de Dados) ou Text Mining (Mineração de Texto)
– A interpretação da saída da rede neural representa a classificação do texto.
Processos de KDD / KDT
Knowledge Discovery (Descoberta do Conhecimento)
– Descobre-se, nesta última etapa do KDD, se o texto está de acordo ou não com o perfil de interesse.
Redes Neurais
• Neste trabalho foram investigadas as redes de treinamento supervisionado do tipo feedfoward com algoritmo backpropagation, devido a sua consagrada característica de classificador universal.
Técnicas de avaliação de textos da WEB
Termo
– Pode ser uma palavra, raiz de uma palavra, fragmento de palavra ou fragmento do texto.
Ruídos
– São termos comuns e por isso não possuem utilidade na pesquisa, já que estarão contidos na maioria dos documentos. Geralmente são artigos, conjunções, pronomes, numerais, símbolos, pontuações, letras isoladas.
Técnicas de avaliação de textos da WEB
Relacionamento entre termos
– Os termos contidos em um mesmo fragmento de texto (parágrafo ou documento), geralmente estão relacionados em um fragmento para expressar um determinado conceito.
– Logo, a ocorrência destes relacionamentos recebe uma pontuação para indicar o fortalecimento deste conceito no texto.
Técnicas de avaliação de textos da WEB
Proximidade
– Os operadores de proximidade localizam termos ou relacionamentos de termos dentro de uma certa distância entre si.
– A distância é medida em quantidade de termos, sentenças, parágrafos ou unidades de estruturas.
– Neste trabalho é medida a distância em parágrafos entre relacionamentos de termos.
Técnicas de avaliação de textos da WEB
Pesquisa ponderada
– A pesquisa ponderada é baseada numa pontuação (pesos) para medir o quanto um documento se enquadra numa consulta.
– Este processo é muito útil quando a pesquisa é realizada em grandes bases de documentos.
Técnicas de avaliação de textos da WEB
• Métodos de pesquisa ponderada
– Contagem do número de documentos que apresentam o termo;
– Contagem do número de ocorrências de cada termo ou padrão.
– Combinação de estratégias, onde cada termo ou padrão recebe um peso, o qual é multiplicado pela quantidade de ocorrências.
Modelagem do SITEX
• Objetivos:
– Realizar a conexão de acesso discado à Internet;
– Realizar a conexão à Web através do protocolo HTTP baseado no TCP/IP;
– Obter a página HTML na URL especificada;
– Navegar na WWW (Web) através dos links hipertexto da página HTML;
Modelagem do SITEX
• Objetivos:
– Abrir e salvar páginas HTML;
– Interpretar os comandos HTML da página;
– Apresentar a página HTML para visualização gráfica no video;
– Extrair o texto da página HTML sem: tags, scripts, referências e links;
– Converter as acentuações codificadas em ISO Latin-1 para ASCII;
Modelagem do SITEX
• Objetivos:
– Extrair o texto sem os ruídos;
– Substituir os sinônimos dos termos;
– Normalizar os termos;
– Abrir e salvar arquivos texto;
– Criar a Base de Conhecimento para um perfil de interesse;
Modelagem do SITEX
• Objetivos:
– Analisar as Características textuais do texto;
– Armazenar e recuperar o perfil do usuário;
– Avaliar o texto em função do perfil de interesse;
Algoritmo do SITEX
• Modo de Treinamento
• Modo de Produção
Algoritmo do SITEX
• Modo de Treinamento
– Avaliação de Termos, Relacionamentos e Proximidades
– Criação da Base de Conhecimentos
– Avaliação das Características Textuais
– Treinamento da Rede Neural
– Validação dos Resultados
Algoritmo do SITEX
• Modo de Produção
– Avaliação de Termos, Relacionamentos e Proximidades
– Avaliação das Características Textuais
– Execução da Rede Neural
– Verificação dos Resultados
Modo de Treinamento
Modo de Treinamento Filtro/Extrator/Conversor
DOCUMENTOS EXEMPLOS (positivos e negativos)
FILTRO DE TAGS HTML E DHTML
CONVERSOR DE ACENTUAÇÃO
Modo de Treinamento Filtro/Extrator/Conversor
CONVERSOR minúsculo MAIÚSCULO
EXTRATOR DE TERMOS (eliminador de ruídos)
TERMOS
ELIMINADOR DE SINÔNIMOS
Modo de Treinamento Termos
QUANT. DE OCORRÊNCIA DE TERMOS
EXTRATOR DE TERMOS SIGNIFICATIVOS (quant. >= média de quant.)
PESOS DOS TERMOS SIGNIFICATIVOS (quant. / menor quant.)
TERMO QUANT PESO
Modo de Treinamento Parágrafos
DEFINIÇÃO DOS PARÁGRAFOS DOS TERMOS
TERMO PARÁGRAFO
Modo de Treinamento Relacionamentos
QUANT. DE RELACIONAMENTOS DE TERMOS
EXTRATOR DE RELACIONAMENTOS SIGNIFICATIVOS (quant. >= média de quant.)
PESOS DOS RELACIONAMENTOS SIGNIFICATIVOS (quant. / menor quant.)
TERMO2 QUANT PESO TERMO1
Modo de Treinamento Proximidades
DISTÂNCIAS MÉDIAS DE RELACIONAMENTOS DE TERMOS
EXTRATOR DE DISTÂNCIAS MÉDIAS SIGNIFICATIVAS DE RELACIONAMENTOS (dist. média <= média de dist. média)
PESOS DAS DISTÂNCIAS MÉDIAS SIGNIFICATIVAS DE RELACIONAMENTOS (maior dist. / dist. média)
TERMO2 DIST PESO TERMO1
Base de Conhecimentos
Modo de Treinamento Criação da Base de Conhecimentos
TERMO QUANT PESO
TERMO PESO TOT
Modo de Treinamento Criação da Base de Conhecimentos
Base de Conhecimentos
TERMO QUANT PESO
TERMO PESO TOT
Base de Conhecimentos
Modo de Treinamento Criação da Base de Conhecimentos
TERMO2 QUANT PESO TERMO1
TERMO2 PESO TOT TERMO1
Modo de Treinamento Criação da Base de Conhecimentos
Base de Conhecimentos
TERMO2 QUANT PESO TERMO1
TERMO2 PESO TOT TERMO1
Base de Conhecimentos
Modo de Treinamento Criação da Base de Conhecimentos
TERMO2 DIST PESO TERMO1
TERMO2 PESO TOT TERMO1
Modo de Treinamento Criação da Base de Conhecimentos
Base de Conhecimentos
TERMO2 DIST PESO TERMO1
TERMO2 PESO TOT TERMO1
Modo de Treinamento Criação da Base de Conhecimentos
Base de Conhecimentos
TERMO PESO TOT
TERMO PESO MED
/ quant. exemplos positivos
Base de Conhecimentos
Modo de Treinamento Criação da Base de Conhecimentos
TERMO PESO TOT
TERMO PESO MED
/ quant. exemplos negativos
Modo de Treinamento Criação da Base de Conhecimentos
Base de Conhecimentos
TERMO2 PESO TOT TERMO1
TERMO2 PESO MED TERMO1
/ quant. exemplos positivos
Base de Conhecimentos
TERMO2 PESO TOT TERMO1
TERMO2 PESO MED TERMO1
/ quant. exemplos negativos
Modo de Treinamento Criação da Base de Conhecimentos
Modo de Treinamento Criação da Base de Conhecimentos
Base de Conhecimentos
TERMO2 PESO TOT TERMO1
TERMO2 PESO MED TERMO1
/ quant. exemplos positivos
Base de Conhecimentos
TERMO2 PESO TOT TERMO1
TERMO2 PESO MED TERMO1
/ quant. exemplos negativos
Modo de Treinamento Criação da Base de Conhecimentos
Modo de Treinamento Criação da Base de Conhecimentos
Base de Conhecimentos
TERMO2 PESO MED TERMO1
TERMO2 PESO MED TERMO1
TERMO PESO MED
TERMO2 PESO MED TERMO1
TERMO2 PESO MED TERMO1
TERMO PESO MED
D
R
T
D
R
T
Modo de Treinamento Filtro/Extrator/Conversor
DOCUMENTOS EXEMPLOS (positivos e negativos)
FILTRO DE TAGS HTML E DHTML
CONVERSOR DE ACENTUAÇÃO
Modo de Treinamento Filtro/Extrator/Conversor
CONVERSOR minúsculo MAIÚSCULO
EXTRATOR DE TERMOS (eliminador de ruídos)
TERMOS
ELIMINADOR DE SINÔNIMOS
Modo de Treinamento Termos
QUANT. DE OCORRÊNCIA DE TERMOS
EXTRATOR DE TERMOS SIGNIFICATIVOS (quant. >= média de quant.)
PESOS DOS TERMOS SIGNIFICATIVOS (quant. / menor quant.)
TERMO QUANT PESO
Modo de Treinamento Avaliação de TP
TERMO PESO MED
TERMO PESO MED
T
T
TERMO QUANT PESO
TP = ( quant (PM - PM) ) / quant de termos do texto na base positiva
Modo de Treinamento Avaliação de TN
TERMO PESO MED
TERMO PESO MED
T
T
TERMO QUANT PESO
TN = ( quant (PM - PM) ) / quant de termos do texto na base negativa
Modo de Treinamento Parágrafos
DEFINIÇÃO DOS PARÁGRAFOS DOS TERMOS
TERMO PARÁGRAFO
Modo de Treinamento Relacionamentos
QUANT. DE RELACIONAMENTOS DE TERMOS
EXTRATOR DE RELACIONAMENTOS SIGNIFICATIVOS (quant. >= média de quant.)
PESOS DOS RELACIONAMENTOS SIGNIFICATIVOS (quant. / menor quant.)
TERMO2 QUANT PESO TERMO1
Modo de Treinamento Avaliação de RP
TERMO2 PESO MED TERMO1
TERMO2 PESO MED TERMO1
R
R
TERMO2 QUANT PESO TERMO1
RP = ( quant (PM - PM) ) / quant de relacionamentos do texto na base positiva
Modo de Treinamento Avaliação de RN
TERMO2 PESO MED TERMO1
TERMO2 PESO MED TERMO1
R
R
TERMO2 QUANT PESO TERMO1
RN = ( quant (PM - PM) ) / quant de relacionamentos do texto na base negativa
Modo de Treinamento Proximidades
DISTÂNCIAS MÉDIAS DE RELACIONAMENTOS DE TERMOS
EXTRATOR DE DISTÂNCIAS MÉDIAS SIGNIFICATIVAS DE RELACIONAMENTOS (dist. média <= média de dist. média)
PESOS DAS DISTÂNCIAS MÉDIAS SIGNIFICATIVAS DE RELACIONAMENTOS (maior dist. / dist. média)
TERMO2 DIST PESO TERMO1
Modo de Treinamento Avaliação de DP
TERMO2 PESO MED TERMO1
TERMO2 PESO MED TERMO1
R
R
TERMO2 QUANT PESO TERMO1
DP = ( quant (PM - PM) ) / quant de proximidades do texto na base positiva
Modo de Treinamento Avaliação de DN
TERMO2 PESO MED TERMO1
TERMO2 PESO MED TERMO1
R
R
TERMO2 QUANT PESO TERMO1
DN = ( quant (PM - PM) ) / quant de proximidades do texto na base negativa
Modo de Treinamento Treinamento da Rede Neural
TP RP DP TN RN DN
.............................
1 ou 0
Modo de Produção
Modo de Produção Filtro/Extrator/Conversor
DOCUMENTOS
FILTRO DE TAGS HTML E DHTML
CONVERSOR DE ACENTUAÇÃO
Modo de Produção Filtro/Extrator/Conversor
CONVERSOR minúsculo MAIÚSCULO
EXTRATOR DE TERMOS (eliminador de ruídos)
TERMOS
ELIMINADOR DE SINÔNIMOS
Modo de Produção Termos
QUANT. DE OCORRÊNCIA DE TERMOS
EXTRATOR DE TERMOS SIGNIFICATIVOS (quant. >= média de quant.)
PESOS DOS TERMOS SIGNIFICATIVOS (quant. / menor quant.)
TERMO QUANT PESO
Modo de Produção Avaliação de TP
TERMO PESO MED
TERMO PESO MED
T
T
TERMO QUANT PESO
TP = ( quant (PM - PM) ) / quant de termos do texto na base positiva
Modo de Produção Avaliação de TN
TERMO PESO MED
TERMO PESO MED
T
T
TERMO QUANT PESO
TN = ( quant (PM - PM) ) / quant de termos do texto na base negativa
Modo de Produção Parágrafos
DEFINIÇÃO DOS PARÁGRAFOS DOS TERMOS
TERMO PARÁGRAFO
Modo de Produção Relacionamentos
QUANT. DE RELACIONAMENTOS DE TERMOS
EXTRATOR DE RELACIONAMENTOS SIGNIFICATIVOS (quant. >= média de quant.)
PESOS DOS RELACIONAMENTOS SIGNIFICATIVOS (quant. / menor quant.)
TERMO2 QUANT PESO TERMO1
Modo de Produção Avaliação de RP
TERMO2 PESO MED TERMO1
TERMO2 PESO MED TERMO1
R
R
TERMO2 QUANT PESO TERMO1
RP = ( quant (PM - PM) ) / quant de relacionamentos do texto na base positiva
Modo de Produção Avaliação de RN
TERMO2 PESO MED TERMO1
TERMO2 PESO MED TERMO1
R
R
TERMO2 QUANT PESO TERMO1
RN = ( quant (PM - PM) ) / quant de relacionamentos do texto na base negativa
Modo de Produção Proximidades
DISTÂNCIAS MÉDIAS DE RELACIONAMENTOS DE TERMOS
EXTRATOR DE DISTÂNCIAS MÉDIAS SIGNIFICATIVAS DE RELACIONAMENTOS (dist. média <= média de dist. média)
PESOS DAS DISTÂNCIAS MÉDIAS SIGNIFICATIVAS DE RELACIONAMENTOS (maior dist. / dist. média)
TERMO2 DIST PESO TERMO1
Modo de Produção Avaliação de DP
TERMO2 PESO MED TERMO1
TERMO2 PESO MED TERMO1
R
R
TERMO2 QUANT PESO TERMO1
DP = ( quant (PM - PM) ) / quant de proximidades do texto na base positiva
Modo de Produção Avaliação de DN
TERMO2 PESO MED TERMO1
TERMO2 PESO MED TERMO1
R
R
TERMO2 QUANT PESO TERMO1
DN = ( quant (PM - PM) ) / quant de proximidades do texto na base negativa
Modo de Produção Execução da Rede Neural
TP RP DP TN RN DN
.............................
1 ou 0
Resultados
• Tecnologia da Informação
• Taxa de acertos sobre todos os arquivos: 93,15%
• Taxa de acertos sobre arq. dentro do perfil: 83,33%
• Taxa de acertos sobre arq. fora do perfil: 96,36%
Conclusões
• As principais contribuições deste trabalho foram:
– o desenvolvimento de técnicas inéditas de KDD / KDT e
– o desenvolvimento de algoritmos inéditos de avaliação de textos da WEB para um perfil de interesse.
Produções Científicas
• Artigo aprovado no Data Mining 2000, Cambridge University, UK
• Capítulo do livro Data Mining II
Produções Científicas
• Artigo aprovado no SBRN RIO 2000
Produções Científicas
Contato
Dr. Fernando Hideo Fukuda
Diretor Executivo da Agência de Desenvolvimento e Inovação Tecnológica da Estácio (ADITEC-ESTÁCIO)
Diretor do Centro de Conhecimento em Tecnologias
E-mail: [email protected]
Tel.: +55 (21) 2503-7076
Cel.: +55 (21) 98496-7098