Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações...

27
Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Sistemas Multiagentes Cognitivos para Extração de Cognitivos para Extração de Informações Informações Relevantes na Web Relevantes na Web Fred Freitas Fred Freitas [email protected] [email protected] LCMI - Laboratório de Controle e Microinformática LCMI - Laboratório de Controle e Microinformática Pós-Graduação em Inteligência Artificial Pós-Graduação em Inteligência Artificial Projeto PROBAL Projeto PROBAL UFSC - Universität Karlsruhe (Alemanha) UFSC - Universität Karlsruhe (Alemanha)

Transcript of Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações...

Page 1: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

Sistemas Multiagentes Sistemas Multiagentes Cognitivos para Extração de Cognitivos para Extração de Informações Relevantes na Informações Relevantes na

Web Web

Fred FreitasFred Freitas

[email protected]@lcmi.ufsc.br

LCMI - Laboratório de Controle e Microinformática LCMI - Laboratório de Controle e Microinformática

Pós-Graduação em Inteligência ArtificialPós-Graduação em Inteligência Artificial

Projeto PROBAL Projeto PROBAL

UFSC - Universität Karlsruhe (Alemanha)UFSC - Universität Karlsruhe (Alemanha)

Page 2: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

RoteiroRoteiro Problemas de Busca na Internet Problemas de Busca na Internet Técnicas existentesTécnicas existentes Princípios da solução propostaPrincípios da solução proposta Justificativa para Multiagentes para Justificativa para Multiagentes para

ExtraçãoExtração ImplementaçãoImplementação

– Técnicas, experimentos, avaliação Técnicas, experimentos, avaliação Trabalho futuroTrabalho futuro

Page 3: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

Problemas de Busca na Internet: Problemas de Busca na Internet:

TamanhoTamanho

Enorme quantidade de páginasEnorme quantidade de páginas– Solução : distribuirSolução : distribuir– Não apenas um robô de busca, mas váriosNão apenas um robô de busca, mas vários– BrokeringBrokering, indexadores e índices distribuídos, , indexadores e índices distribuídos,

como o como o BrightBright!!

Page 4: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

Problemas de Busca na Problemas de Busca na Internet: Internet:

SemânticaSemântica

““A abordagem estatística e’ necessariamente A abordagem estatística e’ necessariamente uma pobre substituta da abordagem baseada uma pobre substituta da abordagem baseada em conhecimento” [Croft 93]em conhecimento” [Croft 93]

Não dá para contextualizar toda a Internet Não dá para contextualizar toda a Internet ((Raciocínio de Senso Comum e PLNRaciocínio de Senso Comum e PLN) de uma ) de uma vezvez

Engenharia de conhecimento Engenharia de conhecimento – Combinar informações por problema, situação e Combinar informações por problema, situação e

usuário, complementando IR [van de Velde 95]usuário, complementando IR [van de Velde 95]

Page 5: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

Busca na InternetBusca na Internet

PLNPLNESES

BDBD

MLMLSMASMA

ReativoReativo

SDSD

Ags.cogAgs.cog nitivosnitivos

Recuperação deRecuperação deInformações (IR)Informações (IR)

StemmingStemmingWordNetWordNetHiperônimosHiperônimosSinônimosSinônimosParsingParsing

Modelagem Modelagem do Usuário,do Usuário,PDAsPDAs(Estatística, (Estatística, AprendizadoAprendizadoe e CBRCBR))

InteligênciaInteligênciaArtificialArtificial

Mecanismos de Mecanismos de Busca distribuídosBusca distribuídosBright!Bright!

Mediação,Mediação,PlanejamentoPlanejamento

ComputaçãoComputaçãoTradicionalTradicional

RobôsRobôsDistribuídosDistribuídos

TaggingTaggingWrappingWrapping

??Integrar BDsIntegrar BDsEstruturar págsEstruturar págs

Robôs,Robôs,JavaJava

OntologiasOntologiasCFP FinderCFP Finder

Page 6: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

Problemas de Problemas de cada solução cada solução

PLNPLNESES

BDBD

MLMLSMASMA

ReativoReativo

SDSD

SMASMAcognitivocognitivo

Ags.cogAgs.cog nitivosnitivos

Recuperação deRecuperação deInformações (IR)Informações (IR)

Alto custo Alto custo computacionacomputacionallsem benefíciosem benefíciocorrespondentcorrespondentee

Ausência de Ausência de contexto e contexto e estruturaestrutura

ComputaçãoComputaçãoTradicionalTradicional

Aquisição deAquisição deconhecimentoconhecimento

NormalizaçãoNormalização

InteligênciaInteligênciaArtificialArtificial

Page 7: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

Avaliação das abordagensAvaliação das abordagens

Abordagem Precisão Robustez Custo

IR Baixa Alta Baixo

PLN Alta Baixa Alto

K Alta Boa Acessível

Page 8: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

Princípios: ContextoPrincípios: Contexto

As palavras dos textos podem ganhar mais As palavras dos textos podem ganhar mais semântica, se interpretadas de acordo com o semântica, se interpretadas de acordo com o contexto (contexto (agregar valoragregar valor).).

Aplicar o máximo de conhecimento Aplicar o máximo de conhecimento a prioria priori e e heurísticas. Conhecimento sobre:heurísticas. Conhecimento sobre:– LocalizaçãoLocalização– Informações esperadasInformações esperadas– Estrutura de tópicosEstrutura de tópicos– Estilo de composição das páginasEstilo de composição das páginas

Page 9: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

Princípios: Memória e Princípios: Memória e ConcorrênciaConcorrência

Não desperdiçar esforços na interpretação das Não desperdiçar esforços na interpretação das páginas.páginas.– Ao tratá-las, passar apenas uma vez por página.Ao tratá-las, passar apenas uma vez por página.

Os requisitos de Contexto e Memória levam Os requisitos de Contexto e Memória levam naturalmente ao uso de abordagens baseadas em naturalmente ao uso de abordagens baseadas em conhecimento explícito (conhecimento explícito (agentes cognitivosagentes cognitivos). ).

Agentes podem ser dotados de adaptabilidade, Agentes podem ser dotados de adaptabilidade, apresentando robustez a informações e situações apresentando robustez a informações e situações não previstas de antemão .não previstas de antemão .

O requisito de Concorrência leva ao uso de O requisito de Concorrência leva ao uso de Sistemas Sistemas Multiagentes Cognitivos.Multiagentes Cognitivos.

Page 10: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

Lição aprendida de IA :Lição aprendida de IA :Dividindo para conquistarDividindo para conquistar

Todo o conhecimento humano está Todo o conhecimento humano está armazenado numa só coleção ? Deve-se armazenado numa só coleção ? Deve-se encontrar carros à venda em sites de .encontrar carros à venda em sites de .eduedu ? ?

Porque os testes da área são Porque os testes da área são sempresempre sobre sobre corporacorpora homogêneos ? homogêneos ?– Nenhuma solução é geralNenhuma solução é geral– Restringir a domínios Restringir a domínios

Page 11: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

Como prover contextoComo prover contexto

O usuário está atrás de O usuário está atrás de informação útilinformação útil e não de páginas! e não de páginas! Buscam-se normalmente as mesmas informações. Buscam-se normalmente as mesmas informações. Ao invés de Recuperação, Extração de Informações (nova Ao invés de Recuperação, Extração de Informações (nova

área) Baseada em Conhecimento (nossa novidade).área) Baseada em Conhecimento (nossa novidade). Construção de BDs de informações úteis a partir de Construção de BDs de informações úteis a partir de

paginas estruturadas.paginas estruturadas. Consultas semanticamente bem definidas podem Consultas semanticamente bem definidas podem

combinar informações de vários combinar informações de vários sitessites. . Solução atual :Solução atual :

– WWrappersrappers : : Extratores de textos baseados em gramáticasExtratores de textos baseados em gramáticas Pobres, exigem informação muito estruturadaPobres, exigem informação muito estruturada

Page 12: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

Utilidade de BDs sobre a WebUtilidade de BDs sobre a Web

Dá pra fazer consultas como essa na Web? Dá pra fazer consultas como essa na Web? – Achar carros vermelhos a partir de 93, por Achar carros vermelhos a partir de 93, por

menos de 5000menos de 5000 SelectSelect * * FromFrom Car Car WhereWhere Color=“red” Color=“red” AndAnd Year Year

>= 1993 >= 1993 AndAnd Price < 5000 Price < 5000 Motivo da impossibilidade [Campbell Motivo da impossibilidade [Campbell et alet al 98]: 98]:

– Buscas baseadas exclusivamente em palavras Buscas baseadas exclusivamente em palavras chaves e freqüências.chaves e freqüências.

Page 13: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

Extratores AtuaisExtratores Atuais

Descriptor/String/Position(start/end)Descriptor/String/Position(start/end)Year|97|1|3Year|97|1|3Make|CHEV|5|8Make|CHEV|5|8Model|Cavalier|10|17Model|Cavalier|10|17Feature|Red|20|22Feature|Red|20|22Feature|5 spd|25|29Feature|5 spd|25|29Mileage|7,000|37|41Mileage|7,000|37|41KEYWORD(Mileage)|miles|43|47KEYWORD(Mileage)|miles|43|47Price|11,995|108|114Price|11,995|108|114PhoneNr|556-3800|146|153PhoneNr|556-3800|146|153

'97 CHEV Cavalier, Red, 5 spd, only 7,000 miles on her.'97 CHEV Cavalier, Red, 5 spd, only 7,000 miles on her.Previous owner heart broken! Asking only $11,995. #1415.Previous owner heart broken! Asking only $11,995. #1415.JERRY SEINER MIDVALE, 566-3800JERRY SEINER MIDVALE, 566-3800 WrappersWrappers são gerados são gerados

automaticamente.automaticamente. Baseados em Baseados em

aprendizado automático ( aprendizado automático ( machine learningmachine learning), ), adaptam-se rápido a adaptam-se rápido a formatos diferentes. formatos diferentes.

Mas, usam sintaxe, no Mas, usam sintaxe, no reconhecimento , não reconhecimento , não semântica...semântica...

Porisso, não permitem Porisso, não permitem inferência nem inferência nem cooperação!cooperação!

[Campbell [Campbell et alet al 98] 98]

Page 14: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

As Classes de PáginasAs Classes de Páginas

Unidade Básica da Internet: Unidade Básica da Internet: – Texto sem estruturação formalTexto sem estruturação formal

Mas, há classes de páginas com alguma estruturaMas, há classes de páginas com alguma estrutura– Ex: Ex: Calls for papersCalls for papers, pesquisadores, dados da bolsa, , pesquisadores, dados da bolsa,

etcetc As classes possuem ainda Similaridade estrutural As classes possuem ainda Similaridade estrutural

– O O estilo de composição das páginasestilo de composição das páginas de uma de uma mesma categoria do mesma categoria do YahooYahoo (que é manual!) possui (que é manual!) possui fatos relevantes que podem ajudar a diferenciá-las fatos relevantes que podem ajudar a diferenciá-las das outras áreas [Cruz das outras áreas [Cruz et alet al 97]. 97].

Page 15: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

Cooperando produtivamenteCooperando produtivamente Um só agente resolve? Um só agente resolve?

– A Internet é muito grande e diversa.A Internet é muito grande e diversa.– O domínio de atuação de um agente não pode ser irrestrito.O domínio de atuação de um agente não pode ser irrestrito.

ClustersClusters - Conjuntos de classes - Conjuntos de classes fortemente conectadasfortemente conectadas entre si, através de entre si, através de linkslinks. .

Cada agente que trata uma classe de páginas Cada agente que trata uma classe de páginas cooperacoopera com com os outros, identificando os outros, identificando links links e outras informações, que e outras informações, que interessem a estes.interessem a estes.

Sistema Multiagente Cognitivo: Um tipo de conhecimento Sistema Multiagente Cognitivo: Um tipo de conhecimento para cada agente diminui a complexidade e aproveita a para cada agente diminui a complexidade e aproveita a concorrência. concorrência.

Resolução Distribuída de Problemas (RDP).Resolução Distribuída de Problemas (RDP).

Page 16: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

Tecnologia disponível baseada Tecnologia disponível baseada em conhecimento explícitoem conhecimento explícito

Capacidade de inferência Capacidade de inferência Protocolo Protocolo peer-to-peerpeer-to-peer

– Comunicação a nível de conhecimentoComunicação a nível de conhecimento Ontologias ReusáveisOntologias Reusáveis

– Repositórios de conhecimento reaproveitados Repositórios de conhecimento reaproveitados – Em IR, pouco se aproveita do trabalho alheio, só Em IR, pouco se aproveita do trabalho alheio, só

as estatísticas.as estatísticas.

Page 17: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

ExperimentosExperimentos

CFP FinderCFP Finder: agente para recuperar, armazenar : agente para recuperar, armazenar e classificar por área e extrair informações e classificar por área e extrair informações relevantes de páginas de relevantes de páginas de Calls for PapersCalls for Papers..– Resultados promissores com poucas regras.Resultados promissores com poucas regras.– 86% no reconhecimento.86% no reconhecimento.

Robô aproveita consultas dos engenhos de Robô aproveita consultas dos engenhos de busca busca – Altavista, Excite, InfoSeek, ...Altavista, Excite, InfoSeek, ...

Page 18: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

Possível arquitetura de Possível arquitetura de Mecanismos de BuscaMecanismos de Busca

WE

B

Robô

Robô

...

Mec. Busca

Thesaurus semântico

Ex:Ex:WordNetWordNet

Índices

OntologiasAg.

ConstrutorOntols.

Ex: Ex: IMPSIMPS

Links, Links, ConhecimentoConhecimento

Links + pags

Page 19: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

Técnicas empregadas - BásicasTécnicas empregadas - Básicas Análise Léxica (Análise Léxica (tokens),Stop-lists, stemming, rankingtokens),Stop-lists, stemming, ranking Tagging - PLNTagging - PLN

– Determina regiões num texto.Determina regiões num texto.– EX do FAQ Finder [Burke EX do FAQ Finder [Burke et alet al 96] 96]

WrappingWrapping– Gramáticas para reconhecer e capturar informações dentro de Gramáticas para reconhecer e capturar informações dentro de

um determinado formato.um determinado formato.– Ex: Datas Ex: Datas

:QUEQUEWhen do I have to change oil ?When do I have to change oil ?

:QUE:QUE:ANS:ANS

After ...After ...

Page 20: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

OntologiasOntologiasPáginaPágina

PáginaWWWPáginaWWW PáginaGopher PáginaGopher

PáginaHTMLPáginaHTML PáginaPSPáginaPS

PáginaCFPPáginaCFP

(deftemplate Pagina(deftemplate Pagina(slot Ano )(slot Ano )(slot Nome)(slot Nome)(slot URL)(slot URL)(slot Formato)(slot Formato)......

))(defrule PagHTML (defrule PagHTML

““Se a pagina é HTML”Se a pagina é HTML”(formato ?x)(formato ?x)(eq ?x ‘html’)(eq ?x ‘html’)=>=>.... ).... )

Page 21: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

Funcionamento de um agenteFuncionamento de um agente

Regras de validação

Pré-process.:stemming, tagging, indexação, etc

URLsURLs

Atualização nos “slots” da Ontologia da Página

Regras de reconhecimento

Categorização baseada em ontologias

Extração de infs relevantes dos documentos

BaseDados*

Onto logias

URLs válidasURLs válidas

Inválidas

Fila deFila deURLsURLs(ALTA (ALTA Prioridade)Prioridade)

Fila deFila deURLsURLs(BAIXA (BAIXA Prioridade)Prioridade) Robô

KQML

Biblioteca

* - contém * - contém estatísitcasestatísitcas

Outros Outros AgentesAgentes

Page 22: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

Técnicas empregadas - Técnicas empregadas - AvançadasAvançadas

Princípio Huhns-Singh para agentes:Princípio Huhns-Singh para agentes:– Um agente deve mudar de comportamento Um agente deve mudar de comportamento

quando outro agente entra no ambiente.quando outro agente entra no ambiente. Modelo baseado no InfoSleuth [Bayardo Modelo baseado no InfoSleuth [Bayardo et alet al

96]96]– Um novo agente se anuncia dizendo que Um novo agente se anuncia dizendo que

paginas e paginas e linkslinks quer e recebe dos outros o que quer e recebe dos outros o que eles queremeles querem

Java +JDBC, HTML, BDs, JESS, KQML (JATLite). Java +JDBC, HTML, BDs, JESS, KQML (JATLite). CLIPS ou KIF(ACL). CLIPS ou KIF(ACL).

Page 23: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

Metodologia de AvaliaçãoMetodologia de Avaliação

1. Obter boas performances com cada agente1. Obter boas performances com cada agente 2. Testar se a cooperação melhora a performance, já que:2. Testar se a cooperação melhora a performance, já que:

– Há um número significativo de Há um número significativo de linkslinks errados vindos dos robôs errados vindos dos robôs – O O overheadoverhead de reconhecimento de informações para outros de reconhecimento de informações para outros

agentes é baixoagentes é baixo A cooperação facilitará também o monitoramento A cooperação facilitará também o monitoramento

– Ex: Ex: PapersPapers por conferência, autor, ... por conferência, autor, ... O processo inicial de troca de mensagens de identificação O processo inicial de troca de mensagens de identificação

entre os agentes não será considerado na mensuração da entre os agentes não será considerado na mensuração da performance.performance.

Page 24: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

Ontologias comuns a todos os Ontologias comuns a todos os agentes agentes

Classes Página, PáginaWWW e outras.Classes Página, PáginaWWW e outras. Talvez devam conter até os centróides :Talvez devam conter até os centróides :

– De palavras-chave (com ordem, para identificar De palavras-chave (com ordem, para identificar termostermos))– De De tagstags HTML (para avaliar a estrutura). HTML (para avaliar a estrutura).

Ontologia do domínio:Ontologia do domínio:– No nosso caso, o domínio científicoNo nosso caso, o domínio científico

áreasáreas paperspapers CFPsCFPs pesquisadorespesquisadores órgãosórgãos eventoseventos etc. etc.

Page 25: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

Ontologias de cada agenteOntologias de cada agente

Classes específicas das páginas de que trataClasses específicas das páginas de que trata Regras de ReconhecimentoRegras de Reconhecimento Um subconjunto de regras de reconhecimento Um subconjunto de regras de reconhecimento

e classes para os outros agentes lhe indicarem e classes para os outros agentes lhe indicarem páginas e linkspáginas e links

Regras e classes para indicar páginas e Regras e classes para indicar páginas e linkslinks para os outros agentes para os outros agentes

Regras de extração e categorização Regras de extração e categorização

Page 26: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

Passos futurosPassos futuros Imediatos:Imediatos:

– Conhecimento declarativo para a inferência: Conhecimento declarativo para a inferência: JESSJESS

– Técnicas de IR: Técnicas de IR: stemming, tagging, ranking, ... stemming, tagging, ranking, ... – Heurísticas : título, pesos de palavras, termos... Heurísticas : título, pesos de palavras, termos... – Nomes próprios e de cidades Nomes próprios e de cidades – Definir as gramáticas e os dicionáriosDefinir as gramáticas e os dicionários– Tratar Tratar sitessites – Concorrência: Concorrência: threads threads (ver como dividi-las).(ver como dividi-las).

Page 27: Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas fred-pe@lcmi.ufsc.br LCMI.

Fred Freitas - LCMI - DAS - UFSC

Passos futurosPassos futuros

Médio Prazo: Médio Prazo: – Incluir outros agentes (pesquisadores, Incluir outros agentes (pesquisadores, paperspapers, ...), ...)– Troca de mensagens (KQML ?) Troca de mensagens (KQML ?) – Aproveitar informações de organização das URLsAproveitar informações de organização das URLs– Incluir aprendizado e conseqüente Incluir aprendizado e conseqüente feedbackfeedback do do

usuário, para facilitar a aquisição do conhecimentousuário, para facilitar a aquisição do conhecimento– Definir métricas de avaliaçãoDefinir métricas de avaliação– Buscar no BD com IR [Cohen 95]Buscar no BD com IR [Cohen 95]