Sistemas de Recuperação da Informação Parte IV Multimídia.

35
Sistemas de Recuperação da Informação Parte IV Multimídia

Transcript of Sistemas de Recuperação da Informação Parte IV Multimídia.

Page 1: Sistemas de Recuperação da Informação Parte IV Multimídia.

Sistemas de Recuperação da Informação

Parte IV Multimídia

Page 2: Sistemas de Recuperação da Informação Parte IV Multimídia.

MIDIAS

Principais estruturas:

• Textos – linguagem natural• Hipertextos - caminhamento• Textos estruturados - esquema• textos marcados – esquema• multimidia (dados digitais de diferentes midias):

• texto• som (linguagem falada, música, ruídos)• imagens (fotos, pinturas, mapas, diagramas, tabelas)• vídeo – sequência síncrona dos anteriores (filmes, animações de imagens)

Page 3: Sistemas de Recuperação da Informação Parte IV Multimídia.

MULTIMIDIA

Hipertextos:

Um grafo dirigido de textos e sub-textos.Cada aresta aponta ou par um texto ou para um subtext.

EXEMPLO: Um Índice Remissivo (a fonte é uma página)

Fonte pode ser um • documento, • parágrafo, • palavra• bloco de n caracteres

Page 4: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Arquivos invertidos :

EXEMPLO:Texto 1 (t1):

Integridade declarativa ou implícita: são condições inseridas no próprio esquema conceitual da aplicação desenvolvida. Isto é um dos objetivos de um modelo semântico de dados, de captar o máximo possível de condições de consistência na própria estrutura do esquema conceitual. Existem várias formas de expressar estas condições:1) Esquema, tipos, subtipos: os próprios conceitos de classes e subclasses, atributos e domínios, impõem restrições ao tipo e formato dos dados a serem armazenados no banco de dados;2) Outras hierarquias: também as hierarquias de agregação e agrupamento, assim como outras que porventura poderão ser desenvolvidas, permitem descrever um comportamento especial dos elementos envolvidos.

Page 5: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Arquivos invertidos :

Dicionário de termos com lista de documentos

Integridade declarativa implícitacondições esquema conceitual aplicação objetivos modelo semântico de dadoscondições de consistênciaestrutura esquema conceitualcondiçõesEsquematiposSubtipos

ClassesSubclassesAtributosDomíniosRestriçõesTipoFormatoDadosArmazenadosbanco de dados;HierarquiasHierarquiasAgregaçãoAgrupamentoComportamento.

Page 6: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Arquivos invertidos :

Dicionário de termos com lista de documentos

Integridade declarativaIntegridadeimplícitacondições (3)esquema conceitual (2)aplicação objetivos modelo semântico de dadoscondições de consistênciaestrutura Esquema (3)Tipos (2)SubtiposDados (3)

ClassesSubclassesAtributosDomíniosRestriçõesFormatoArmazenadosbanco de dadosHierarquias (2)AgregaçãoAgrupamentoComportamento.

Page 7: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Arquivos invertidos :

Texto 2 (t2):

Integridade não-declarativa: nenhum modelo de dados é suficientemente rico para poder captar todas as restrições de integridade de uma aplicação complexa. Certas restrições não podem ser dadas de forma declarativa nas estruturas de dados e precisam ser expressas explicitamente de alguma forma. Isto pode acontecer de quatro maneiras distintas:1) Por meio de invariantes ou asserções, que permitem descrever as restrições de integridade como fórmulas ou expressões em uma linguagem específica, que serão verificadas sempre que necessário.2) Por meio de pré- e pós-condições associadas às operações (vide parágrafo seguinte);

Page 8: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Arquivos invertidos :

Dicionário de termos com lista de documentos

Integridade não-declarativamodelo de dadosrestrições de integridadeaplicação complexaRestriçõesforma declarativaestruturas de dadosExpressasexplicitamente

Invariantes asserçõesrestrições de integridadeFórmulasExpressõeslinguagem específicapré-condiçõespós-condições operações

Page 9: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Arquivos invertidos :

Dicionário de termos com lista de documentos

Integridade não-declarativaIntegridade (3)modelo de dadosrestrições de integridade (2)aplicação complexaRestrições (3)forma declarativaestruturas de dadosDados (2)Expressasexplicitamente

Invariantes asserçõesFórmulasExpressõeslinguagem específicapré-condiçõespós-condições Condições (2)operações

Page 10: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Arquivos invertidos :

Dicionário de termos com lista de documentos

Condições (2) Dados (2) Integridade (3)restrições de integridade (2)Restrições (3)

condições (3) Dados (3)Esquema (3)esquema conceitual (2)Hierarquia (2)Tipos (2)

T1:

T2:

Page 11: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Arquivos invertidos :

Dicionário de termos ponderados com lista de documentos

T1,3Condições T2,2

T1,3Dados T2,2

T1,2Esquema conceitual

T1,3esquema

T1,2hierarquia

T2,2Restrições de integridade

T1,2tipos

Page 12: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Arquivos invertidos :

Dicionário de termos ponderados com lista de documentosconsiderando a posição

T1,3 (1-6;2-18; 3-7)Condições T2,2 (5-4;5-7)

T1,3 (2-11; 4-21; 4-28)Dados T2,2

T1,2Esquema conceitual

T1,3 (1-10; 2-26; 4-1)esquema

T1,2hierarquia

T2,2Restrições de integridade

T1,2tipos

Page 13: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Arquivos invertidos :

Dicionário de termos ponderados com lista de documentosconsiderando a posição

T1,3 (1-6;2-18; 3-7)1.Condições T2,2 (5-4;5-7)

T1,3 (2-11; 4-21; 4-28)2.Dados T2,2

T1,24.Esquema conceitual(+3)

T1,3 (1-10; 2-26; 4-1)3.Esquema (-4, -2, ~7)

T1,25.hierarquia

T2,26.Restrições de integridade (~1)

T1,27.tipos(~3)

Page 14: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Arquivos invertidos :

Trie dos índices:

T1,3C T2,2

T1,3D T2,2

T1,2c

T1,3esquema

T1,2h

T2,2R

T1,2t

Page 15: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Arquivos invertidos :

Incremento dos índices:1. Termo `condições`:

T1,3C T2,2

2. Acréscimo de `consistência` em T1:

o n d

s T2,1

Page 16: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Arquivos invertidos :

Árvore de sufixos:

T1,3C T2,2

o n d

s T2,1

T1,3

1

T2,2

T2,1

3c

s

d

Page 17: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Arquivos invertidos :

Vantagens

• cada termo só aparece uma vez• busca por proximidade• facilidade de associar pesos, posições

Desvantagens

• muita redundância nas referências aos documentos•

Page 18: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

EXERCÍCIO

A crescente quantidade de informação disponível na Web trás problemas desafiadores relacionados à recuperação de informação. Atualmente a maior parte do conteúdo disponível na Web está escrito em inglês, porém estudos recentes demonstram que o crescimento da quantidade de informação disponível na Web é maior para outros idiomas, que não o inglês. Nesse contexto a cada dia aumenta a necessidade por sistemas capazes de recuperar informação sem levar em consideração o idioma no qual a informação esteja expressa.

Além da Web, vários outros sistemas de informação que lidam com documentos, tal como bibliotecas digitais e convencionais, jornais, documentos jurídicos, entre outros, vem tendo um significativo aumento na quantidade de informação que pode estar expressa em uma grande variedade de idiomas diferentes.A recuperação de informação multilíngüe vem sendo tema de pesquisas já há bastante tempo e ao longo desse tempo ótimos resultados vêm sendo obtidos pelos pesquisadores da área. Muitos pesquisadores, inclusive, acreditam que o problema de recuperação de informação multilíngüe já está resolvido [15].

Page 19: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS - Textos integrais

N-Gramas

Divide o texto em pedaços de tamanho fixo (n):

Bigramas:Di iv vi id de o te ex xt to em pe ed da aç ço os …

Trigramas:Div ivi vid ide o tex ext xto em ped eda daç ços …

Com marcadores de palavras:#Div ivi vid ide# #o# #tex ext xto# …

Page 20: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

N-Gramas

Aplicaçoes

• Criptografia• Correção de erros de grafia• Compressão de textos• Manipulação de índices• Recuperação de textos integral

Page 21: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

N-Gramas

erros de grafia:

Erros típicos:• Commputer (letra a mais)• Cmputer (letra a menos)• Comptuer (letras trocadas)

• Cumputer (letra errada)

Regras de substituição:• omm mmu ~ omu• cmp ~ com omp• mpt ptu ~ mpu put

Cum ump ~ com omp

Page 22: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Árvores PATRICIA (PAT trees e PAT arrays)(Practical Algorithm To Retrieve Information Coded In Alphanumerics)

Um texto é considerado como uma longa cadeia de caracteres.

Cada posição desta cadeia é o começo de um sufixo (semi-infinito) do texto

Também chamado de árvore ou array de sufixos.

Page 23: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Árvores PATRICIA (PAT trees e PAT arrays)

“Um texto é considerado como uma longa cadeia de caracteres.”

Um texto é considerado como uma longa cadeia de caracteres.m texto é considerado como uma longa cadeia de caracterestexto é considerado como uma longa cadeia de caracteresexto é considerado como uma longa cadeia de caracteres

Page 24: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Árvores PATRICIA (PAT trees e PAT arrays)

Um texto é considerado como uma longa cadeia de caracteres. 1 2 3 4 5

texto é considerado como uma longa cadeia de caracteres.considerado como uma longa cadeia de caractereslonga cadeia de caracterescadeia de caracterescaracteres

Sufixos significativos = pontos de indexação:

Page 25: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Árvores PATRICIA (PAT trees e PAT arrays)

Um texto é considerado como uma longa cadeia de caracteres.1 4 10 34 40 50

d

Representação

4

10

c

l

a

to

40

3450r

Trie

Page 26: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Árvores PATRICIA (PAT trees e PAT arrays)

Um texto é considerado como uma longa cadeia de caracteres.1 4 10 34 40 50

Representação

Array ordenado 40 | 50 | 10 | 34 | 4 |

Com supra índice-2 ca | co | lo | te |

Page 27: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Árvores PATRICIA (PAT trees e PAT arrays)Aplicações

• Índice remissivo (supra –indice-n)• Pesquisa por prefixos• Pesquisa de proximidade entre dois strings• Pesquisa por abrangências léxicas

p.ex. “abc” ... “acc” inclui “abra”, “acacia” mas não “acrimonioso”• Frequências de textos• Pesquisa por expressões regulares

Consultas: p.ex.

os trigrams mais frequentes ~ a maior sub-árvore a partir do nível 3 da raíz

Page 28: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Arquivos Assinatura

É uma forma extremamente compacta de caracterizar um texto por meio de uma “assinatura”.

Assinatura = um bitstring que caracteriza uma palavra-chave um bloco um documentoX uma consulta

Page 29: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Arquivos Assinatura

Palavra Assinatura

Computer 0001 0110 0000 0110Science 1001 0000 1110 0000Graduate 1000 0101 0100 0010Students 0000 0110 0110 0100Study 0000 0110 0110 0100

Assinatura do bloco 1001 0111 1110 0110

Constante: número de bits 1 por termo (=5)

Page 30: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Arquivos Assinatura – Blocos de 5 palavrasA crescente quantidade de informação disponível na Web trás problemas desafiadores relacionados à recuperação de informação. Atualmente a maior parte do conteúdo disponível na Web está escrito em inglês, porém estudos recentes demonstram que o crescimento da quantidade de informação disponível na Web é maior para outros idiomas, que não o inglês.

Palavra AssinaturaInformação 0001 0110 0000 0110Web 1001 0000 1110 0000Recuperação 1000 0101 0100 0010Inglês 0000 0110 0110 0100Idioma(s) 0010 0110 0010 0100

Assinatura do documento 1001 0111 1110 0110

0001 0110 0000 01101001 0000 1110 00001001 0111 0100 01100000 0000 0000 00000010 0110 0010 01000000 0110 0110 01000000 0000 0000 00000001 0110 0000 01101001 0000 1110 00000010 0110 0110 0100

1011 0111 1110 0110

Page 31: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Arquivos Assinatura - ConsultasA crescente quantidade de informação disponível na Web trás problemas desafiadores relacionados à recuperação de informação. Atualmente a maior parte do conteúdo disponível na Web está escrito em inglês, porém estudos recentes demonstram que o crescimento da quantidade de informação disponível na Web é maior para outros idiomas, que não o inglês.

Consulta: “Recuperação na web”

Web 1001 0000 1110 0000Recuperação 1000 0101 0100 0010

Assinatura da consulta 1001 0101 1110 0010

0001 0110 0000 01101001 0000 1110 00001001 0111 0100 01100000 0000 0000 00000010 0110 0010 01000000 0110 0110 01000000 0000 0000 00000001 0110 0000 01101001 0000 1110 00000010 0110 0110 0100

1011 0111 1110 0110

1001 0101 1110 0010

Page 32: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Hipertextos

Um Hypertexto é um grafo dirigido de textos e pontos no texto.Cada nó é um texto e cada aresta aponta de um ponto em um texto a outro ponto em um texto.

Na Internet o padrão é HTML

Um hiperlink é dado por

<a href=“<url>”>texto</a>

Page 33: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Hipertextos

EXEMPLO:

HTML

Page 34: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

Hipertextos

Sistema que combina Pesquisa com browsing:

WebGlimpse

Questões:

• desprezar hiperlinks• como considerar hiperlinks locais• em que profundidade considerar hiperlinks externos (ciclos, cadeias ‘infinitas’)

Page 35: Sistemas de Recuperação da Informação Parte IV Multimídia.

ESTRUTURAS DE ARQUIVOS

EXERCÍCIO

Para as palavras chave do exercício anterior criar assinaturas para as palavras chave e usar os parágrafos como unidades e criar uma assinatura para cada parágrafo.

Considere as consultas:

• “Web multilingue”• “idiomas na Web”Quais textos serão retornados?