Download - Análise dos Modelos de Recuperação de Informação

Transcript
Page 1: Análise dos Modelos de Recuperação de Informação

Análise dos Modelos de Recuperação de Informação

Diogo  Benicá  Pereira

Faculdade  Campo  Limpo  Paulista 01Dez/2012

Trabalho  para  Conclusão  de  Curso  |  Orientador:  André  Marcos  da  SilvaFaculdade  Campo  Limpo  Paulista

Page 2: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 02Dez/2012

qual o problema?Muita  informação!Não  é  fácil  encontrar  um  dado  relevante  no  meio  de  tanta  informação.

Page 3: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 03Dez/2012

qual a solução?Sistemas  de  Recuperaçãode  InformaçãoPara  a  tarefa  de  buscar  informação  relevante  dentro  de  um  conjunto  de  documentos.

Documentos Necessidade

IndexaçãoEspecificação

da Consulta

ÍndicesRepresentação

dos Documentos Consultas

Recuperação

Lista de Documentos

Perda de Informação

documentos

Page 4: Análise dos Modelos de Recuperação de Informação

o que é IR?

Faculdade  Campo  Limpo  Paulista 04Dez/2012

Informa;on  Retrieval

Encontrar  material  de  natureza  não-­‐estruturada  que  saQsfaz  uma  informação  requerida  a  parQr  de  

grandes  coleções.“ “- Mainning

Page 5: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 05Dez/2012

o que é um documento?Um  documento  pode  ser  qualquer  unidadeUm  texto  inteiro,  um  capítulo,  um  parágrago,  etc.

A  escolha  depende  do  resultado  desejado

Lorem����������� ������������������  ipsum����������� ������������������  dolor����������� ������������������  sit����������� ������������������  amet,����������� ������������������  consectetur����������� ������������������  adipisicing����������� ������������������  elit,����������� ������������������  sed����������� ������������������  do����������� ������������������  eiusmod����������� ������������������  tempor.

incididunt����������� ������������������  ut����������� ������������������  labore����������� ������������������  et����������� ������������������  dolore����������� ������������������  magna����������� ������������������  aliqua.����������� ������������������  Ut����������� ������������������  enim����������� ������������������  ad����������� ������������������  minim����������� ������������������  veniam,����������� ������������������  quis����������� ������������������  nostrud����������� ������������������  exercitation����������� ������������������  ullamco.����������� ������������������  Laboris����������� ������������������  nisi����������� ������������������  ut����������� ������������������  aliquip����������� ������������������  ex����������� ������������������  ea����������� ������������������  commodo����������� ������������������  consequat.����������� ������������������  Duis����������� ������������������  aute����������� ������������������  irure����������� ������������������  dolor����������� ������������������  in����������� ������������������  reprehenderit����������� ������������������  in����������� ������������������  voluptate����������� ������������������  velit����������� ������������������  esse����������� ������������������  cillum����������� ������������������  dolore����������� ������������������  eu����������� ������������������  fugiat����������� ������������������  nulla����������� ������������������  pariatur.

Excepteur����������� ������������������  sint����������� ������������������  occaecat����������� ������������������  cupidatat

Lorem����������� ������������������  ipsum����������� ������������������  dolor����������� ������������������  sit����������� ������������������  amet,����������� ������������������  consectetur����������� ������������������  adipisicing����������� ������������������  elit,����������� ������������������  sed����������� ������������������  do����������� ������������������  eiusmod����������� ������������������  tempor.

incididunt����������� ������������������  ut����������� ������������������  labore����������� ������������������  et����������� ������������������  dolore����������� ������������������  magna����������� ������������������  aliqua.����������� ������������������  Ut����������� ������������������  enim����������� ������������������  ad����������� ������������������  minim����������� ������������������  veniam,����������� ������������������  quis����������� ������������������  nostrud����������� ������������������  exercitation����������� ������������������  ullamco.����������� ������������������  Laboris����������� ������������������  nisi����������� ������������������  ut����������� ������������������  aliquip����������� ������������������  ex����������� ������������������  ea����������� ������������������  commodo����������� ������������������  consequat.����������� ������������������  Duis����������� ������������������  aute����������� ������������������  irure����������� ������������������  dolor����������� ������������������  in����������� ������������������  reprehenderit����������� ������������������  in����������� ������������������  voluptate����������� ������������������  velit����������� ������������������  esse����������� ������������������  cillum����������� ������������������  dolore����������� ������������������  eu����������� ������������������  fugiat����������� ������������������  nulla����������� ������������������  pariatur.

Excepteur����������� ������������������  sint����������� ������������������  occaecat����������� ������������������  cupidatat

Lorem����������� ������������������  ipsum����������� ������������������  dolor����������� ������������������  sit����������� ������������������  amet,����������� ������������������  consectetur����������� ������������������  adipisicing����������� ������������������  elit,����������� ������������������  sed����������� ������������������  do����������� ������������������  eiusmod����������� ������������������  tempor.

incididunt����������� ������������������  ut����������� ������������������  labore����������� ������������������  et����������� ������������������  dolore����������� ������������������  magna����������� ������������������  aliqua.����������� ������������������  Ut����������� ������������������  enim����������� ������������������  ad����������� ������������������  minim����������� ������������������  veniam,����������� ������������������  quis����������� ������������������  nostrud����������� ������������������  exercitation����������� ������������������  ullamco.����������� ������������������  Laboris����������� ������������������  nisi����������� ������������������  ut����������� ������������������  aliquip����������� ������������������  ex����������� ������������������  ea����������� ������������������  commodo����������� ������������������  consequat.����������� ������������������  Duis����������� ������������������  aute����������� ������������������  irure����������� ������������������  dolor����������� ������������������  in����������� ������������������  reprehenderit����������� ������������������  in����������� ������������������  voluptate����������� ������������������  velit����������� ������������������  esse����������� ������������������  cillum����������� ������������������  dolore����������� ������������������  eu����������� ������������������  fugiat����������� ������������������  nulla����������� ������������������  pariatur.

Excepteur����������� ������������������  sint����������� ������������������  occaecat����������� ������������������  cupidatat

Page 6: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 06Dez/2012

como funciona?Modelos  de  Recuperação

Modelos  quan;ta;vos Modelos  dinâmicos

BooleanoVetorialProbabilísQcoBooleano  estendidoFuzzy

Sistemas  especialistasRedes  neuraisAlgoritmos  genéQcos

Booleano

Page 7: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 07Dez/2012

modelo booleanoÁlgebra  booleanaSistema  para  manipular  regras  e  símbolos.

Lógica  aristotélicaAQngir  conhecimento  sem  contradição.

Verdadeiro  ou  Falso

Page 8: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 08Dez/2012

modelo booleanoExpressões  booleanas

termo1    AND    (termo2    OR    termo3)ex.    “Recuperação”    AND  (“Informação”    OR    “Texto”)

termo1    n  unidades    termo2ex.    “Recuperação”    5  unidades    “Informação”

Page 9: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 09Dez/2012

como funcionaModelos  de  Recuperação

Modelos  quan;ta;vos Modelos  dinâmicos

BooleanoVetorialProbabilísQcoBooleano  estendidoFuzzy

Sistemas  especialistasRedes  neuraisAlgoritmos  genéQcos

Vetorial

Page 10: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 10Dez/2012

modelo vetorialResultados  parciaisUso  de  pesos  nos  termos  para  determinar  quanto  cada  documento  é  semelhante  à  expressão  de  busca.

Tudo  são  vetoresDocumentos  e  expressões  de  busca  são  representados  como  vetores.

Peso  termo1 Peso  termo2 Peso  termo3 Peso  termo4Documento

Page 11: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 11Dez/2012

como funcionaModelos  de  Recuperação

Modelos  quan;ta;vos Modelos  dinâmicos

BooleanoVetorialProbabilísQcoBooleano  estendidoFuzzy

Sistemas  especialistasRedes  neuraisAlgoritmos  genéQcosProbabilísQco

Page 12: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 12Dez/2012

modelo probabilistícoTeoria  da  probabilidadeExperimentos  aleatórios  em  condições  iguais  com  resultados  diferentes.

Probabilidade  de  um  evento

EventoResultados  possíveis

16

Page 13: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 13Dez/2012

como funcionaModelos  de  Recuperação

Modelos  quan;ta;vos Modelos  dinâmicos

BooleanoVetorialProbabilísQcoBooleano  estendidoFuzzy

Sistemas  especialistasRedes  neuraisAlgoritmos  genéQcos

Booleano  estendido

Page 14: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 14Dez/2012

modelo booleano estendidoUnião  do  modelo  booleano  e  do  vetorialJunta  a  potencialidade  do  booleano  com  a  precisão  do  vetorial.

Operadores  com  pesosOs  operadores  (AND  e  OR)  também  possuem  pesos.

Page 15: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 15Dez/2012

como funcionaModelos  de  Recuperação

Modelos  quan;ta;vos Modelos  dinâmicos

BooleanoVetorialProbabilísQcoBooleano  estendidoFuzzy

Sistemas  especialistasRedes  neuraisAlgoritmos  genéQcos

Fuzzy

Page 16: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 16Dev/2012

modelo fuzzyBaseado  na  lógica  fuzzy

Opera  com  incerteza  e  verdade  parcialUm  elemento  tem  um  grau  de  perQnência  em  um  conjunto.

Elemento

75%Cidade  1

25%Cidade  2

cidade  1 cidade  2

Page 17: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 17Dez/2012

como funcionaModelos  de  Recuperação

Modelos  quan;ta;vos Modelos  dinâmicos

BooleanoVetorialProbabilísQcoBooleano  estendidoFuzzy

Sistemas  especialistasRedes  neuraisAlgoritmos  genéQcos

Sistemas  especialistas

Page 18: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 18Dez/2012

sistemas especialistasEmula  a  especialização  humana  em  um  domínioEntrada  de  conhecimento  a  parQr  de  especialistas.

Regras,  inferência  e  feedbackAtravés  de  regras  <SE  -­‐>  ENTÃO>  faz  inferência  e  adquire  mais  conhecimento  através  do  feedback  do  usuário.

Page 19: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 19Dez/2012

como funcionaModelos  de  Recuperação

Modelos  quan;ta;vos Modelos  dinâmicos

BooleanoVetorialProbabilísQcoBooleano  estendidoFuzzy

Sistemas  especialistasRedes  neuraisAlgoritmos  genéQcosRedes  neurais

Page 20: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 20Dez/2012

redes neuraisSistema  modelando  os  circuitos  cerebraisProcura  obter  um  comportamento  inteligente.

Vários  neurônios  formam  uma  rede  neuralCada  neurônio  tem  várias  entradas  e  uma  função  que  transforma  em  uma  saída.

Capacidade  de  aprender  com  exemplosMelhora  gradual  de  desempenho  através  de  inferências.

Page 21: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 21Dez/2012

algoritmos genéticosBaseado  na  teoria  evolucionista  de  Darwin

Seleção  naturalOs  algoritmos  se  “reproduzem”  e  se  adaptam  para  que  cada  geração  seja  melhor  em  resolver  o  problema.

Page 22: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 22Dez/2012

na práticaAnálise  dos  modelosCriação  de  protóQpos  dos  modelos  booleano,  vetorial  e  booleano  estendido.

ComparaçãoAnálise  do  tempo  de  execução,  uso  de  memória  e  qualidade  de  resultado.

AmbientePHP  5.3  (executado  no  terminal).

Page 23: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 23Dez/2012

na prática (documento)DocumentosCada  modelo  será  testado  com  9  diferentes  documentos  de  texto.Os  documentos  têm  aproximadamente  150,  900  e  1800  palavras.

Expressão  de  buscaPara  cada  grupo  de  documentos  será  aplicada  uma  expressão  de  busca  com  3  e  depois  6  termos.  Ex:  termo1  AND  termo2  OR  termo3

termo1  AND  (termo2  OR  termo3)  AND  termo4  OR  (termo5  AND  termo6)

Page 24: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 24Dez/2012

resultados (Modelo  booleano)

0 kb

250 kb

500 kb

750 kb

1000 kb

3 termos 6 termos

947  kb947  kb

681  kb681  kb

458  kb458  kb

150 palavras 900 palavras 1800 palavras

Uso  de  Memória

0 s

0,00005 s

0,00010 s

0,00014 s

0,00019 s

3 termos 6 termos

0,00019

0,000160,00015

0,000120,00014

0,00009

150 palavras 900 palavras 1800 palavras

Tempo  de  Execução

Page 25: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 25Dez/2012

resultados (Modelo  vetorial)

0 kb

250 kb

500 kb

750 kb

1000 kb

3 termos 6 termos

967  kb967  kb

697  kb697  kb

465  kb465  kb

150 palavras 900 palavras 1800 palavras

Uso  de  Memória

0 s

0,00500 s

0,01000 s

0,01500 s

0,02000 s

3 termos 6 termos

0,017750,01753

0,009030,00890

0,002220,00221

150 palavras 900 palavras 1800 palavras

Tempo  de  Execução

Page 26: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 26Dez/2012

resultados (Modelo  booleano  estendido)

0 kb

250 kb

500 kb

750 kb

1000 kb

3 termos 6 termos

967  kb967  kb

697  kb697  kb

465  kb465  kb

150 palavras 900 palavras 1800 palavras

Uso  de  Memória

0 s

0,00750 s

0,01500 s

0,02250 s

0,03000 s

3 termos 6 termos

0,026810,02676

0,015130,01511

0,003320,00328

150 palavras 900 palavras 1800 palavras

Tempo  de  Execução

Page 27: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 27Dez/2012

conclusõesModelo  booleano  é  muito  rápido!Seguido  do  modelo  vetorial  e  depois  o  modelo  booleano  estendido.

Modelo  booleano  estendido  tem  melhores  resultados

Crescimento  linear  de  memória  e  tempoTodos  os  modelos  apresentaram  um  crescimento  linear  em  relação  ao  tamanho  dos  documento.

(experimento)

Page 28: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 28Dez/2012

conclusõesModelos  quan;ta;vos  estão  consolidadosPresentes  na  web  e  na  maioria  dos  sistemas  de  recuperação.

Modelos  dinâmicos  ainda  são  complexos

Modelos  quan;ta;vos  não  são  tolerantes  à  falhasErros  de  gramáQca,  semânQca  e  cultura  não  são  levados  em  conta.

(geral)

Dircil  implementação  e  de  domínio  específico.

Page 29: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 29Dez/2012

fim

Page 30: Análise dos Modelos de Recuperação de Informação

Faculdade  Campo  Limpo  Paulista 30Dez/2012

?