Análise dos Modelos de Recuperação de Informação

30
Análise dos Modelos de Recuperação de Informação Diogo Benicá Pereira Faculdade Campo Limpo Paulista 01 Dez/2012 Trabalho para Conclusão de Curso | Orientador: André Marcos da Silva Faculdade Campo Limpo Paulista

description

Apresentação do trabalho de conclusão de curso sore recuperação de informação apresentado em Dezembro de 2012.

Transcript of Análise dos Modelos de Recuperação de Informação

Page 1: Análise dos Modelos de Recuperação de Informação

Análise dos Modelos de Recuperação de Informação

Diogo  Benicá  Pereira

Faculdade  Campo  Limpo  Paulista 01Dez/2012

Trabalho  para  Conclusão  de  Curso  |  Orientador:  André  Marcos  da  SilvaFaculdade  Campo  Limpo  Paulista

Page 2: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 02Dez/2012

qual o problema?Muita  informação!Não  é  fácil  encontrar  um  dado  relevante  no  meio  de  tanta  informação.

Page 3: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 03Dez/2012

qual a solução?Sistemas  de  Recuperaçãode  InformaçãoPara  a  tarefa  de  buscar  informação  relevante  dentro  de  um  conjunto  de  documentos.

Documentos Necessidade

IndexaçãoEspecificação

da Consulta

ÍndicesRepresentação

dos Documentos Consultas

Recuperação

Lista de Documentos

Perda de Informação

documentos

Page 4: Análise dos Modelos de Recuperação de Informação

o que é IR?

Faculdade  Campo  Limpo  Paulista 04Dez/2012

Informa;on  Retrieval

Encontrar  material  de  natureza  não-­‐estruturada  que  saQsfaz  uma  informação  requerida  a  parQr  de  

grandes  coleções.“ “- Mainning

Page 5: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 05Dez/2012

o que é um documento?Um  documento  pode  ser  qualquer  unidadeUm  texto  inteiro,  um  capítulo,  um  parágrago,  etc.

A  escolha  depende  do  resultado  desejado

Lorem����������� ������������������  ipsum����������� ������������������  dolor����������� ������������������  sit����������� ������������������  amet,����������� ������������������  consectetur����������� ������������������  adipisicing����������� ������������������  elit,����������� ������������������  sed����������� ������������������  do����������� ������������������  eiusmod����������� ������������������  tempor.

incididunt����������� ������������������  ut����������� ������������������  labore����������� ������������������  et����������� ������������������  dolore����������� ������������������  magna����������� ������������������  aliqua.����������� ������������������  Ut����������� ������������������  enim����������� ������������������  ad����������� ������������������  minim����������� ������������������  veniam,����������� ������������������  quis����������� ������������������  nostrud����������� ������������������  exercitation����������� ������������������  ullamco.����������� ������������������  Laboris����������� ������������������  nisi����������� ������������������  ut����������� ������������������  aliquip����������� ������������������  ex����������� ������������������  ea����������� ������������������  commodo����������� ������������������  consequat.����������� ������������������  Duis����������� ������������������  aute����������� ������������������  irure����������� ������������������  dolor����������� ������������������  in����������� ������������������  reprehenderit����������� ������������������  in����������� ������������������  voluptate����������� ������������������  velit����������� ������������������  esse����������� ������������������  cillum����������� ������������������  dolore����������� ������������������  eu����������� ������������������  fugiat����������� ������������������  nulla����������� ������������������  pariatur.

Excepteur����������� ������������������  sint����������� ������������������  occaecat����������� ������������������  cupidatat

Lorem����������� ������������������  ipsum����������� ������������������  dolor����������� ������������������  sit����������� ������������������  amet,����������� ������������������  consectetur����������� ������������������  adipisicing����������� ������������������  elit,����������� ������������������  sed����������� ������������������  do����������� ������������������  eiusmod����������� ������������������  tempor.

incididunt����������� ������������������  ut����������� ������������������  labore����������� ������������������  et����������� ������������������  dolore����������� ������������������  magna����������� ������������������  aliqua.����������� ������������������  Ut����������� ������������������  enim����������� ������������������  ad����������� ������������������  minim����������� ������������������  veniam,����������� ������������������  quis����������� ������������������  nostrud����������� ������������������  exercitation����������� ������������������  ullamco.����������� ������������������  Laboris����������� ������������������  nisi����������� ������������������  ut����������� ������������������  aliquip����������� ������������������  ex����������� ������������������  ea����������� ������������������  commodo����������� ������������������  consequat.����������� ������������������  Duis����������� ������������������  aute����������� ������������������  irure����������� ������������������  dolor����������� ������������������  in����������� ������������������  reprehenderit����������� ������������������  in����������� ������������������  voluptate����������� ������������������  velit����������� ������������������  esse����������� ������������������  cillum����������� ������������������  dolore����������� ������������������  eu����������� ������������������  fugiat����������� ������������������  nulla����������� ������������������  pariatur.

Excepteur����������� ������������������  sint����������� ������������������  occaecat����������� ������������������  cupidatat

Lorem����������� ������������������  ipsum����������� ������������������  dolor����������� ������������������  sit����������� ������������������  amet,����������� ������������������  consectetur����������� ������������������  adipisicing����������� ������������������  elit,����������� ������������������  sed����������� ������������������  do����������� ������������������  eiusmod����������� ������������������  tempor.

incididunt����������� ������������������  ut����������� ������������������  labore����������� ������������������  et����������� ������������������  dolore����������� ������������������  magna����������� ������������������  aliqua.����������� ������������������  Ut����������� ������������������  enim����������� ������������������  ad����������� ������������������  minim����������� ������������������  veniam,����������� ������������������  quis����������� ������������������  nostrud����������� ������������������  exercitation����������� ������������������  ullamco.����������� ������������������  Laboris����������� ������������������  nisi����������� ������������������  ut����������� ������������������  aliquip����������� ������������������  ex����������� ������������������  ea����������� ������������������  commodo����������� ������������������  consequat.����������� ������������������  Duis����������� ������������������  aute����������� ������������������  irure����������� ������������������  dolor����������� ������������������  in����������� ������������������  reprehenderit����������� ������������������  in����������� ������������������  voluptate����������� ������������������  velit����������� ������������������  esse����������� ������������������  cillum����������� ������������������  dolore����������� ������������������  eu����������� ������������������  fugiat����������� ������������������  nulla����������� ������������������  pariatur.

Excepteur����������� ������������������  sint����������� ������������������  occaecat����������� ������������������  cupidatat

Page 6: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 06Dez/2012

como funciona?Modelos  de  Recuperação

Modelos  quan;ta;vos Modelos  dinâmicos

BooleanoVetorialProbabilísQcoBooleano  estendidoFuzzy

Sistemas  especialistasRedes  neuraisAlgoritmos  genéQcos

Booleano

Page 7: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 07Dez/2012

modelo booleanoÁlgebra  booleanaSistema  para  manipular  regras  e  símbolos.

Lógica  aristotélicaAQngir  conhecimento  sem  contradição.

Verdadeiro  ou  Falso

Page 8: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 08Dez/2012

modelo booleanoExpressões  booleanas

termo1    AND    (termo2    OR    termo3)ex.    “Recuperação”    AND  (“Informação”    OR    “Texto”)

termo1    n  unidades    termo2ex.    “Recuperação”    5  unidades    “Informação”

Page 9: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 09Dez/2012

como funcionaModelos  de  Recuperação

Modelos  quan;ta;vos Modelos  dinâmicos

BooleanoVetorialProbabilísQcoBooleano  estendidoFuzzy

Sistemas  especialistasRedes  neuraisAlgoritmos  genéQcos

Vetorial

Page 10: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 10Dez/2012

modelo vetorialResultados  parciaisUso  de  pesos  nos  termos  para  determinar  quanto  cada  documento  é  semelhante  à  expressão  de  busca.

Tudo  são  vetoresDocumentos  e  expressões  de  busca  são  representados  como  vetores.

Peso  termo1 Peso  termo2 Peso  termo3 Peso  termo4Documento

Page 11: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 11Dez/2012

como funcionaModelos  de  Recuperação

Modelos  quan;ta;vos Modelos  dinâmicos

BooleanoVetorialProbabilísQcoBooleano  estendidoFuzzy

Sistemas  especialistasRedes  neuraisAlgoritmos  genéQcosProbabilísQco

Page 12: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 12Dez/2012

modelo probabilistícoTeoria  da  probabilidadeExperimentos  aleatórios  em  condições  iguais  com  resultados  diferentes.

Probabilidade  de  um  evento

EventoResultados  possíveis

16

Page 13: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 13Dez/2012

como funcionaModelos  de  Recuperação

Modelos  quan;ta;vos Modelos  dinâmicos

BooleanoVetorialProbabilísQcoBooleano  estendidoFuzzy

Sistemas  especialistasRedes  neuraisAlgoritmos  genéQcos

Booleano  estendido

Page 14: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 14Dez/2012

modelo booleano estendidoUnião  do  modelo  booleano  e  do  vetorialJunta  a  potencialidade  do  booleano  com  a  precisão  do  vetorial.

Operadores  com  pesosOs  operadores  (AND  e  OR)  também  possuem  pesos.

Page 15: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 15Dez/2012

como funcionaModelos  de  Recuperação

Modelos  quan;ta;vos Modelos  dinâmicos

BooleanoVetorialProbabilísQcoBooleano  estendidoFuzzy

Sistemas  especialistasRedes  neuraisAlgoritmos  genéQcos

Fuzzy

Page 16: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 16Dev/2012

modelo fuzzyBaseado  na  lógica  fuzzy

Opera  com  incerteza  e  verdade  parcialUm  elemento  tem  um  grau  de  perQnência  em  um  conjunto.

Elemento

75%Cidade  1

25%Cidade  2

cidade  1 cidade  2

Page 17: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 17Dez/2012

como funcionaModelos  de  Recuperação

Modelos  quan;ta;vos Modelos  dinâmicos

BooleanoVetorialProbabilísQcoBooleano  estendidoFuzzy

Sistemas  especialistasRedes  neuraisAlgoritmos  genéQcos

Sistemas  especialistas

Page 18: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 18Dez/2012

sistemas especialistasEmula  a  especialização  humana  em  um  domínioEntrada  de  conhecimento  a  parQr  de  especialistas.

Regras,  inferência  e  feedbackAtravés  de  regras  <SE  -­‐>  ENTÃO>  faz  inferência  e  adquire  mais  conhecimento  através  do  feedback  do  usuário.

Page 19: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 19Dez/2012

como funcionaModelos  de  Recuperação

Modelos  quan;ta;vos Modelos  dinâmicos

BooleanoVetorialProbabilísQcoBooleano  estendidoFuzzy

Sistemas  especialistasRedes  neuraisAlgoritmos  genéQcosRedes  neurais

Page 20: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 20Dez/2012

redes neuraisSistema  modelando  os  circuitos  cerebraisProcura  obter  um  comportamento  inteligente.

Vários  neurônios  formam  uma  rede  neuralCada  neurônio  tem  várias  entradas  e  uma  função  que  transforma  em  uma  saída.

Capacidade  de  aprender  com  exemplosMelhora  gradual  de  desempenho  através  de  inferências.

Page 21: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 21Dez/2012

algoritmos genéticosBaseado  na  teoria  evolucionista  de  Darwin

Seleção  naturalOs  algoritmos  se  “reproduzem”  e  se  adaptam  para  que  cada  geração  seja  melhor  em  resolver  o  problema.

Page 22: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 22Dez/2012

na práticaAnálise  dos  modelosCriação  de  protóQpos  dos  modelos  booleano,  vetorial  e  booleano  estendido.

ComparaçãoAnálise  do  tempo  de  execução,  uso  de  memória  e  qualidade  de  resultado.

AmbientePHP  5.3  (executado  no  terminal).

Page 23: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 23Dez/2012

na prática (documento)DocumentosCada  modelo  será  testado  com  9  diferentes  documentos  de  texto.Os  documentos  têm  aproximadamente  150,  900  e  1800  palavras.

Expressão  de  buscaPara  cada  grupo  de  documentos  será  aplicada  uma  expressão  de  busca  com  3  e  depois  6  termos.  Ex:  termo1  AND  termo2  OR  termo3

termo1  AND  (termo2  OR  termo3)  AND  termo4  OR  (termo5  AND  termo6)

Page 24: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 24Dez/2012

resultados (Modelo  booleano)

0 kb

250 kb

500 kb

750 kb

1000 kb

3 termos 6 termos

947  kb947  kb

681  kb681  kb

458  kb458  kb

150 palavras 900 palavras 1800 palavras

Uso  de  Memória

0 s

0,00005 s

0,00010 s

0,00014 s

0,00019 s

3 termos 6 termos

0,00019

0,000160,00015

0,000120,00014

0,00009

150 palavras 900 palavras 1800 palavras

Tempo  de  Execução

Page 25: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 25Dez/2012

resultados (Modelo  vetorial)

0 kb

250 kb

500 kb

750 kb

1000 kb

3 termos 6 termos

967  kb967  kb

697  kb697  kb

465  kb465  kb

150 palavras 900 palavras 1800 palavras

Uso  de  Memória

0 s

0,00500 s

0,01000 s

0,01500 s

0,02000 s

3 termos 6 termos

0,017750,01753

0,009030,00890

0,002220,00221

150 palavras 900 palavras 1800 palavras

Tempo  de  Execução

Page 26: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 26Dez/2012

resultados (Modelo  booleano  estendido)

0 kb

250 kb

500 kb

750 kb

1000 kb

3 termos 6 termos

967  kb967  kb

697  kb697  kb

465  kb465  kb

150 palavras 900 palavras 1800 palavras

Uso  de  Memória

0 s

0,00750 s

0,01500 s

0,02250 s

0,03000 s

3 termos 6 termos

0,026810,02676

0,015130,01511

0,003320,00328

150 palavras 900 palavras 1800 palavras

Tempo  de  Execução

Page 27: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 27Dez/2012

conclusõesModelo  booleano  é  muito  rápido!Seguido  do  modelo  vetorial  e  depois  o  modelo  booleano  estendido.

Modelo  booleano  estendido  tem  melhores  resultados

Crescimento  linear  de  memória  e  tempoTodos  os  modelos  apresentaram  um  crescimento  linear  em  relação  ao  tamanho  dos  documento.

(experimento)

Page 28: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 28Dez/2012

conclusõesModelos  quan;ta;vos  estão  consolidadosPresentes  na  web  e  na  maioria  dos  sistemas  de  recuperação.

Modelos  dinâmicos  ainda  são  complexos

Modelos  quan;ta;vos  não  são  tolerantes  à  falhasErros  de  gramáQca,  semânQca  e  cultura  não  são  levados  em  conta.

(geral)

Dircil  implementação  e  de  domínio  específico.

Page 29: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 29Dez/2012

fim

Page 30: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 30Dez/2012

?