RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

69
RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES Alessandro Marinho Silva André Pires Vieira Diego Dainese Polla Sergio Luis da Silva Wilson Witerkosk

description

RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES. Alessandro Marinho Silva André Pires Vieira Diego Dainese Polla Sergio Luis da Silva Wilson Witerkosk. RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES. Índice. Introdução Modelos Quantitativos Modelos Dinâmicos - PowerPoint PPT Presentation

Transcript of RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

Page 1: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

RECUPERAÇÃO DE INFORMAÇÃOMODELOS E APLICAÇÕES

Alessandro Marinho SilvaAndré Pires VieiraDiego Dainese PollaSergio Luis da SilvaWilson Witerkosk

Page 2: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

RECUPERAÇÃO DE INFORMAÇÃOMODELOS E APLICAÇÕES

Índice

• Introdução

• Modelos Quantitativos

• Modelos Dinâmicos

• Recuperação de Informação na Web

• Conclusão

Page 3: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

RECUPERAÇÃO DE INFORMAÇÃOMODELOS E APLICAÇÕES

INTRODUÇÃO

Page 4: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

4

Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão

Recuperação de Informação

Recuperação da informação significa a operação pela qual se seleciona documentos, sobre tópicos específicos, a partir do acervo, em função da demanda do usuário.

O processo de recuperação de informação consiste em identificar, no conjunto de documentos(corpus) de um sistema, quais atendem à necessidade de informação do usuário.

Page 5: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

5

Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão

Sistemas de Recuperação de Informação

Os Sistemas de Recuperação de Informação (SRI’s) surgiram da necessidade de se extrair informações em bases de dados não estruturadas, tais como grandes coleções de documentos textuais e bibliográficos.

Os SRI’s necessitam de técnicas que agilizam o armazenamento e acesso aos dados.

Page 6: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

6

Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão

Sistemas de Recuperação de Informação

A recuperação de informação é feita a partir de uma entrada do usuário, ou seja, uma consulta para que os documentos relevantes sejam encontrados.

Os SRI’s geralmente se baseiam em Busca por Palavra-Chave ou Busca por Similaridade.

Page 7: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

7

Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão

Recuperação de Informação x Mineração de Texto

A informatização de diversas áreas trouxe como conseqüência um grande volume de informações sendo armazenadas em bancos de dados.

Algumas áreas surgiram para o tratamento de informações textuais, como a Recuperação de Informação e a Mineração de Textos.

Ambas utilizam técnicas avançadas para explorar uma grande coleção de dados textuais desestruturados, mas tem propósitos diferentes.

Page 8: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

8

Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão

Recuperação de Informação x Mineração de Texto

Recuperação de Informação é uma tecnologia utilizada para buscar documentos, focalizando nos dados relacionados a algum tópico específico.

A Mineração de Textos, também conhecida como Descoberta de Conhecimento em Textos (KDT), visa encontrar padrões e tendências em um conjunto de documentos, realizar classificação de documentos, ou ainda comparar documentos.

Page 9: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

9

Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão

Recuperação de Informação x Mineração de Texto

Em uma das etapas da Mineração de Textos, utiliza-se técnicas de R.I.

Coleção de

textos

FormaIntermediária

Mineração

Conhecimento

Técnicas deRI

Técnicas deEI

Processo de Mineração de Textos (Correa, 2003)

Page 10: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

10

Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão

Recuperação de Informação x Mineração de Texto

Por se tratar de documentos textuais desestruturados, é necessário um sistema que filtre o conjunto de documentos e indexe as palavras-chave encontradas, as quais identificam o conteúdo dos textos.

Essa técnica é chamada de indexação.

Page 11: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

11

Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão

Indexação

Processo pelo qual as palavras contidas nos textos são armazenadas em uma estrutura de índice para viabilizar a pesquisa de documentos através das palavras que eles contêm.

Page 12: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

12

Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão

Indexação

Índices invertidos são criados para possibilitar melhoras significativas no desempenho e na funcionalidade da busca.

A figura a seguir mostra a utilização de arquivos invertidos para o armazenamento dos termos que identificam os documentos.

Page 13: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

13

Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão

Indexação

Estrutura de Arquivo Invertido (Correa, 2003)

Os termos, ou palavras-chave, são extraídos dos textos e ficam armazenados juntamente com as referências para os respectivos documentos.

As buscas usam os índices extraídos dos documentos-texto

para comparações com a consulta do usuário.

Page 14: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

14

Modelos Quantitativos Modelos Dinâmicos R.I. Na Web Conclusão

Indexação

Algumas etapas que constituem o processo de indexação:

Análise léxica: etapa para converter uma cadeia de caracteres em uma cadeia de palavras. Remoção de Stop-Words: esta fase tem por objetivo filtrar e retirar as palavras que ocorrem na maioria dos documentos, como artigos, preposições, conjunções e pronomes.

Stemming: remove todas as variações (plurais, gerúndios, sufixos) de uma palavra, permanecendo apenas a raiz da palavra.

Page 15: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

RECUPERAÇÃO DE INFORMAÇÃOMODELOS E APLICAÇÕES

MODELOS QUANTITATIVOS

Page 16: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

16

Introdução Modelos Dinâmicos R.I. Na Web Conclusão

Modelos Quantitativos

A grande maioria dos modelos de RI é de natureza quantitativa: baseados em disciplinas como a lógica, a estatística e a teoria dos conjuntos.

Talvez a principal tarefa para os sistemas de RI seja decidir a importância de um termo para a descrição do conteúdo de um documento.

Page 17: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

17

Introdução Modelos Dinâmicos R.I. Na Web Conclusão

Modelos Quantitativos

Os modelos de recuperação quantitativos, aqui abordados, são:

•Modelo Booleano

•Modelo Vetorial

•Modelo Probabilístico

Page 18: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

18

Introdução Modelos Dinâmicos R.I. Na Web Conclusão

Modelo Booleano

Baseado na lógica booleana.

Considera uma consulta como uma expressão booleana convencional formada com os conectivos lógicos AND, OR e NOT.

Sua estratégia de recuperação é baseada no critério de decisão binária.

É de vital importância para sistemas de banco de dados (SQL).

Page 19: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

19

Introdução Modelos Dinâmicos R.I. Na Web Conclusão

Modelo Booleano

(FERNEDA, 2003)

Page 20: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

20

Introdução Modelos Dinâmicos R.I. Na Web Conclusão

Modelo Vetorial

Associa pesos aos termos de indexação e aos termos da expressão de busca.

O resultado da utilização destes pesos é a ordenação dos documentos pelo grau de similaridade em relação à expressão de busca.

Cada elemento do vetor é normalizado para assumir valores entre 0 e 1.

Para o cálculo do peso é considerado o n° de vezes que o termo aparece no documento e o n° de vezes que o termo aparece no corpus de documentos.

Page 21: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

21

Introdução Modelos Dinâmicos R.I. Na Web Conclusão

Modelo Vetorial

A representação gráfica de dois documentos: DOC1, com termos de indexação t1 e t3, com pesos 0.3 e 0.5, e DOC2 com termos de indexação t1, t2 e t3, com pesos 0.5, 0.4 e 0.3, dá-se:

Page 22: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

22

Introdução Modelos Dinâmicos R.I. Na Web Conclusão

Modelo Vetorial

Se utilizarmos uma expressão de busca eBUSCA=(0.2,0.35,0.1), juntamente com os documentos DOC1 e DOC2, em um espaço vetorial formado pelos termos t1, t2 e t3, teremos a representação gráfica a seguir:

Page 23: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

23

Introdução Modelos Dinâmicos R.I. Na Web Conclusão

Modelo Vetorial

Para encontrar o grau de similaridade, calcula-se o co-seno do ângulo entre documentos ou entre consultas e documentos:

Onde wi,x é o peso do i-ésimo elemento do vetor x e wi,y é o peso do i-ésimo elemento do vetor y.

Page 24: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

24

Introdução Modelos Dinâmicos R.I. Na Web Conclusão

Modelo Vetorial

Assim, o grau de similaridade entre o documento DOC1 e o documento DOC2 é calculado:

Page 25: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

25

Introdução Modelos Dinâmicos R.I. Na Web Conclusão

Modelo Vetorial

Portanto, o grau de similaridade entre estes dois documentos é de 73%. Utilizando-se a mesma fórmula é possível encontrar o grau de similaridade entre a expressão eBUSCA com cada um dos documentos DOC1 e DOC2:

Page 26: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

26

Introdução Modelos Dinâmicos R.I. Na Web Conclusão

Modelo Vetorial

A expressão eBUSCA possui um grau de similaridade de 45% com o documento DOC1 e de 92% com o documento DOC2.

É possível restringir a quantidade de documentos recuperados definindo um limite mínimo para o valor de similaridade.

Um limite de 0.5, indica que uma expressão de busca obterá como resultado apenas os documentos cujo valor de similaridade for superior a 50%.

Page 27: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

27

Introdução Modelos Dinâmicos R.I. Na Web Conclusão

Modelo Probabilístico

O Modelo Probabilístico representa o processo de recuperação de informação sob um ponto de vista probabilístico, ou seja, calcula a probabilidade de que o documento seja relevante para a consulta.

Page 28: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

28

Introdução Modelos Dinâmicos R.I. Na Web Conclusão

Modelo Probabilístico

Dada uma expressão de busca, podem-se dividir os N documentos de um corpus em quatro subconjuntos:

• o conjunto dos documentos relevantes (Rel)

• o conjunto dos documentos recuperados (Rec)

• o conjunto dos documentos relevantes e recuperados (RR) e

• o conjunto dos documentos não relevantes e não recuperados.

Page 29: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

29

Introdução Modelos Dinâmicos R.I. Na Web Conclusão

Modelo Probabilístico

O resultado ideal de uma busca é o conjunto que contenham todos e apenas os documentos relevantes para o usuário, isto é, todo o conjunto Rel.

Page 30: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

30

Introdução Modelos Dinâmicos R.I. Na Web Conclusão

Modelo Probabilístico

Após obter os resultados da primeira busca, é possível melhorar os resultados através de interações com o usuário.

Seja Rel o conjunto de documentos relevantes, e o complemento de Rel, a probabilidade de um documento d ser relevante em relação à expressão de busca é designada por p(Rel|d).

lRe

Page 31: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

31

Introdução Modelos Dinâmicos R.I. Na Web Conclusão

Modelo Probabilístico

A similaridade (sim) de um documento d em relação à expressão de busca eBUSCA é definida como:

Page 32: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

RECUPERAÇÃO DE INFORMAÇÃOMODELOS E APLICAÇÕES

MODELOS DINÂMICOS

Page 33: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

33

Introdução Modelos Quantitativos R.I. Na Web Conclusão

Modelos Dinâmicos

Representam um enfoque diferenciado em relação aos modelos quantitativos.

Dá ao conjunto de usuários uma participação ativa na representação dos documentos.

Seu uso se restringe a pequenos grupos de usuários com interesses comuns.

Page 34: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

34

Introdução Modelos Quantitativos R.I. Na Web Conclusão

Modelos Dinâmicos

Apresentaremos três tipos conhecidos de modelos dinâmicos:

•Sistemas Especialistas

•Redes Neurais Articifiais

•Algoritmos Genéticos

Page 35: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

35

Introdução Modelos Quantitativos R.I. Na Web Conclusão

Sistemas Especialistas

É um sistema computacional que procura representar o conhecimento de um especialista humano em um domínio particular, de maneira a auxiliar nas tomadas de decisões e resolução de problemas relacionados a esse domínio.

Parte do princípio de que a inteligência não é apenas raciocínio, mas também memória, ou seja, é possuir grande quantidade de informação sobre determinado assunto.

Page 36: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

36

Introdução Modelos Quantitativos R.I. Na Web Conclusão

Sistemas Especialistas

São sistemas baseados em conhecimento.

Servem como consultores na tomada de decisões em áreas restritas.

Permitem representar o conhecimento heurístico na forma de regras obtidas através da experiência e intuição de especialistas de uma área específica.

Page 37: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

37

Introdução Modelos Quantitativos R.I. Na Web Conclusão

Sistemas Especialistas

A recuperação de informação é um processo cuja eficiência depende grande parte do conhecimento sobre o assunto.

Há dois exemplos de sistemas que utilizam procedimentos típicos dos sistemas especialistas na recuperação de informação.

Page 38: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

38

Introdução Modelos Quantitativos R.I. Na Web Conclusão

Sistemas Especialistas

Sistema IOTA

Desenvolvido no Laboratoire Génie Informatique de Grenoble.

O processo de construção automática da base de conhecimento é realizado através da identificação dos principais conceitos contidos nos textos do conjunto de documentos (corpus).

Page 39: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

39

Introdução Modelos Quantitativos R.I. Na Web Conclusão

Sistemas Especialistas

Sistema IOTA

Esses conceitos são identificados utilizando-se cálculos estatísticos de co-ocorrência de pares de palavras.

Se duas palavras aparecerem próximas em vários documentos do corpus então elas possuem um certo relacionamento.

Page 40: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

40

Introdução Modelos Quantitativos R.I. Na Web Conclusão

Sistemas Especialistas

Sistema RUBRIC

Rule-Basic Retrieval of Information by Computer

O usuário é capaz de construir sua própria base de conhecimento sobre um determinado assunto através da especificação e organização de conceitos na forma de uma rede de frames.

Page 41: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

41

Introdução Modelos Quantitativos R.I. Na Web Conclusão

Sistemas Especialistas

Sistema RUBRIC

Para cada conceito (frame) o usuário define um conjunto de regras do tipo se...então que caracteriza o conceito.

Ex:

Se “recuperação” e “informação” então “recuperação de informação” (0.5)

Aparecendo as palavras”recuperação” e “informação” no mesmo documento, a probabilidade de se tratar de “recuperação de informação” é de 50%.

Page 42: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

42

Introdução Modelos Quantitativos R.I. Na Web Conclusão

Redes Neurais Artificiais

A busca por um modelo artificial que simule o funcionamento das células do cérebro data dos anos 40.

Nos anos 80 o entusiasmo nas pesquisas aumentou devido a avanços metodológicos importantes e também graças aos avanços da ciência da computação.

Page 43: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

43

Introdução Modelos Quantitativos R.I. Na Web Conclusão

Redes Neurais Artificiais

Uma das propriedades mais importantes de uma rede neural é a capacidade de aprender através de exemplos e fazer inferências sobre o que aprendeu, melhorando gradativamente o seu desempenho.

Page 44: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

44

Introdução Modelos Quantitativos R.I. Na Web Conclusão

Redes Neurais Artificiais

De uma forma simplificada, uma rede neural artificial pode ser vista como um grafo onde os nós são os neurônios e as ligações fazem a função das sinapses.

Page 45: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

45

Introdução Modelos Quantitativos R.I. Na Web Conclusão

Redes Neurais Artificiais

(FERNEDA, 2003)

Page 46: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

46

Introdução Modelos Quantitativos R.I. Na Web Conclusão

Redes Neurais Artificiais

Uma tarefa comum para um sistema de recuperação de informação é pesquisar documentos relevantes que satisfazem uma determinada expressão de busca através dos termos de indexação.

Essa organização pode ser comparada a uma estrutura de uma rede neural.

Page 47: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

47

Introdução Modelos Quantitativos R.I. Na Web Conclusão

Redes Neurais Artificiais

(FERNEDA, 2003)

Entrada da rede neuralSaída da rede neural

Page 48: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

48

Introdução Modelos Quantitativos R.I. Na Web Conclusão

Algoritmos Genéticos

É um processo repetitivo que mantém uma população de “indivíduos” que representam as possíveis soluções para um determinado problema.

A cada geração os indivíduos da população passam por uma avaliação de sua capacidade em oferecer uma solução satisfatória para o problema.

Essa avaliação é feita por uma função de adaptação ou função de fitness.

Page 49: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

49

Introdução Modelos Quantitativos R.I. Na Web Conclusão

Algoritmos Genéticos

De acordo com essa avaliação alguns indivíduos, selecionados de acordo com uma regra probabilística, passam por um processo de reprodução, gerando uma nova população de possíveis soluções.

Pressupõe-se que a população vá gradativamente ficando mais apta para solucionar o problema.

Page 50: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

50

Introdução Modelos Quantitativos R.I. Na Web Conclusão

Algoritmos Genéticos

A aplicação dos algoritmos genéticos na recuperação de informação representa um novo modelo para todo o processo de recuperação.

As representações dos documentos podem ser vistas como um tipo de um “código genético”.

Page 51: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

51

Introdução Modelos Quantitativos R.I. Na Web Conclusão

Algoritmos Genéticos

Nesse código genético um cromossomo é representado por um vetor binário onde cada elemento armazena o valor 0 ou 1 (presença ou ausência de um determinado termo na representação do documento).

Page 52: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

52

Introdução Modelos Quantitativos R.I. Na Web Conclusão

Algoritmos Genéticos

A aplicação dos algoritmos genéticos na recuperação de informação se apresenta somente como uma possibilidade, uma proposição para futuras implementações de sistemas com características evolutivas.

Page 53: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

RECUPERAÇÃO DE INFORMAÇÃOMODELOS E APLICAÇÕES

Recuperação de Informação na

WEB

Page 54: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

54

Introdução Modelos Quantitativos Modelos Dinâmicos Conclusão

A web é hoje considerada como a maior fonte de informação das principais formas de conhecimento.

Nunca na história da humanidade tanta informação foi produzida.

O seu uso intensivo, aliado ao crescimento exponencial, vem mudando diversos aspectos da sociedade contemporânea.

Características da Web

Page 55: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

55

Introdução Modelos Quantitativos Modelos Dinâmicos Conclusão

Alguns dados:

•A cada dois anos, cada habitante do planeta produz 800 MB de informação digital

•De 2000 para 2003, o número de informações novas cresceu 30%.

•Todos os habitantes do planeta geraram informação digital nova suficiente para lotar 500 mil bibliotecas do congresso nacional dos EUA, a maior do mundo. Isso são 5 petabytes, ou seja, 5 bilhões de gigabytes de dados!

Como achar qualquer informação nessa montanha de dados?

fonte: http://noticias.uol.com.br/mundodigital

Características da Web

Page 56: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

56

Introdução Modelos Quantitativos Modelos Dinâmicos Conclusão

Os search engines, ou mecanismos de busca, são as ferramentas indicadas para o trabalho.

Em um acervo extremamente grande e dinâmico como o da Web é essencial a indexação constante de suas páginas.

Para isso temos a indexação manual e a indexação automática.

Métodos de busca

Page 57: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

57

Introdução Modelos Quantitativos Modelos Dinâmicos Conclusão

Usuários cadastram sua página e associam-na a uma ou mais categorias (podendo sugerir uma nova categoria para a sua página).

Cada categoria é uma página Web formada por um conjunto de links para as páginas relacionadas àquela categoria.

Os funcionários do site de busca fazem a análise da URL cadastrada, podendo alterar a classificação.

O mais conhecido search engine que utiliza a indexação manual é o Yahoo!

Indexação Manual

Page 58: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

58

Introdução Modelos Quantitativos Modelos Dinâmicos Conclusão

Vantagens

• Se a busca do usuário estiver relacionada diretamente a uma categoria existente, é esperada uma alta precisão na busca.

• Uma página encontrada, que foi indexada por esse método, normalmente possui links para outras páginas relevantes sobre o mesmo assunto.

Indexação Manual

Page 59: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

59

Introdução Modelos Quantitativos Modelos Dinâmicos Conclusão

Desvantagens

•Depende do cadastramento voluntário de páginas, isso reduz a cobertura da busca.

•A procura por um assunto que não se enquadra em qualquer categoria existente, torna da busca ineficiente.

Indexação Manual

Page 60: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

60

Introdução Modelos Quantitativos Modelos Dinâmicos Conclusão

Utiliza programas chamados spiders.

Um spider encontra páginas que podem ser cadastradas seguindo os links de páginas que já estão no banco de dados do buscador.

Depois de encontradas, as páginas são passadas para outro software para a indexação, que identifica texto, links, e outros conteúdos na página e arquiva esses dados no banco do buscador.

Indexação Automática

Page 61: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

61

Introdução Modelos Quantitativos Modelos Dinâmicos Conclusão

Se uma página nunca foi "linkada" a qualquer outra, os spiders não podem encontrá-la.

Por produzir milhares de resultados, exige o uso de alguns truques para tornar a pesquisa mais rápida e precisa.

Google e Altavista são os mais conhecidos buscadores que utilizam a indexação automática.

Indexação Automática

Page 62: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

62

Introdução Modelos Quantitativos Modelos Dinâmicos Conclusão

Meta-busca

Metabuscadores não possuem Banco de Dados próprios.

Retornam o resultado proveniente da combinação de outros mecanismos de busca, como Google, Yahoo! Search, MSN Search, Ask Jeeves e vários outros.

Page 63: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

63

Introdução Modelos Quantitativos Modelos Dinâmicos Conclusão

Meta-busca

Metabuscadores são muito eficientes na localização de temas muito específicos e difíceis de localizar.

Se a busca é simples, vale mais usar um mecanismo de busca comum, pois os metabuscadores podem produzir um amontoado de informação que servirá mais para confundir do que para ajudar.

Alguns metabuscadores: WebCrawler, MetaCrawler, SurfWax, Vivísimo.

Page 64: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

64

Introdução Modelos Quantitativos Modelos Dinâmicos Conclusão

Meta-busca

http://www.surfwax.com

Lista de search engines disponíveis, divididos por assunto.

Buscadores escolhidos para integrar a lista personalizada. Pode-se fazer até 3 listas, contendo até 10 buscadores cada.

Page 65: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

RECUPERAÇÃO DE INFORMAÇÃOMODELOS E APLICAÇÕES

CONCLUSÃO

Page 66: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

66

Introdução Modelos Quantitativos Modelos Dinâmicos R.I. Na Web

Conclusão

Com a “explosão da informação” e a urgência no tratamento da crescente produção de informação, o computador foi a solução mais direta.

A natural vocação dos computadores pelo processamento matemático justifica a predominância dos modelos quantitativos de recuperação de informação.

Page 67: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

67

Introdução Modelos Quantitativos Modelos Dinâmicos R.I. Na Web

Conclusão

Os modelos dinâmicos rompem a rigidez imposta pelos modelos quantitativos através da participação de usuários na representação dos documentos.

Os trabalhos práticos disponíveis na literatura apresentam somente testes utilizando um ambiente controlado, com um conjunto de documentos reduzidos.

O desempenho computacional dos modelos dinâmicos em situações reais ainda é uma incógnita.

Page 68: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

68

Introdução Modelos Quantitativos Modelos Dinâmicos R.I. Na Web

Conclusão

Recuperar informação implica operar seletivamente um estoque de informação, o que envolve processos cognitivos que dificilmente podem ser formalizados através de um algoritmo.

Mesmo que um modelo computacional de recuperação da informação tenha como base algum tipo de vocabulário e organização lógica, a equiparação dos significados supostamente implícitos depende de uma análise intelectual.

Page 69: RECUPERAÇÃO DE INFORMAÇÃO MODELOS E APLICAÇÕES

69

RECUPERAÇÃO DE INFORMAÇÃOMODELOS E APLICAÇÕES

FIM