Ruidos

31
João Adolfo Lutz [email protected] Estudo sobre eliminação de ruídos em páginas Web

Transcript of Ruidos

Page 1: Ruidos

João Adolfo [email protected]

Estudo sobre eliminação de ruídos em páginas Web

Page 2: Ruidos

Roteiro

– Ruídos– Problemas associados– Técnicas existentes– Quadro comparativo– Conclusões

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 3: Ruidos

O que são ruídos em páginas web?

• Elementos não informativos• Repetição de conteúdo• 50% da web [Gibson et al. 2005]• Remoção de templates• Detecção de conteúdo informativo

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 4: Ruidos

Exemplo de ruídos

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 5: Ruidos

Problemas associados aos ruídos

• Afeta performance de sistemas de IR• Motores de busca

o Aumento do índiceo Aumento de armazenamentoo Prejudica o ranking - perda de precisão

• Classificação e clusterização

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 6: Ruidos

Técnicas de eliminação de ruídos

• Descrição dos métodos da literatura atual• Divisão em 3 grandes grupos

o Técnicas baseadas em identificação de blocoso Técnicas baseadas em segmentação visualo Técnicas baseadas em similaridade estruturalo Técnica híbrida

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 7: Ruidos

Técnicas de identificação de blocos

• Bar-Yossef, Z. and Rajagopalan, S. (2002). Template detection via data mining and its applications. In Proceedings of the 11th international conference on World Wide Web, WWW ’02, pages 580–591. ACM, New York, NY, USAo Definição formal de templateo Definição de pagelets

Unidade melhor do que páginas inteiras para RIo Detecção de pagelets baseado na densidade de linkso Encontra templates a partir da repetição de pagelets

Frequent item seto Melhorias na precisão e revocação em algoritmos de RI

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 8: Ruidos

Técnicas de identificação de blocos

• Debnath, S., Mitra, P., and Giles, C. L. (2005). Automatic extraction of informative blocks from webpages. In Proceedings of the 2005 ACM symposium on Applied computing, SAC ’05, pages 1722–1726. ACM, New York, NY, USA.o Entrada dos algoritmos: páginas de uma mesma classeo FeatureExtractor: heurísticas para identificação de blocos

Conteúdo textual, tags <tr>, <p>, <hr> e <ul>, listas e propriedades de estilo

o ContentExtractor: IBDF (Inverse Block Document Frequency)o Similaridade entre blocos calculada a partir de vetores de atributos

Número de termos, número de imagens, número de javascript e matriz binária de termos

o Determina blocos relevantes através de um limiaro Resultados melhores que a próxima técnica

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 9: Ruidos

Técnicas de identificação de blocos

• Lin, S.-H. and Ho, J.-M. (2002). Discovering informative content blocks from web documents. In Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’02, pages 588–593. ACM, New York, NY, USA.o Particiona a páginas conforme tags <table>

Razões históricaso Durante este parsing, recupera o conteúdo textual, remove stop-words e

aplica stemming de Portero Após calcular TF-IDF, calcula grau de entropia de cada termo o Grau de entropia de cada bloco é a soma da entropia dos termos o Quando um bloco excede um limiar, é considerado irrelevante

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 10: Ruidos

Técnicas de identificação de blocos

• Chen, L., Ye, S., and Li, X. (2006). Template detection for large scale search engines.In Proceedings of the 2006 ACM symposium on Applied computing, SAC ’06, pages 1094–1098. ACM, New York, NY, USA. o Foco maior na melhoria da velocidadeo Método anexado ao processo de indexação de um SEo Segmenta a página a partir de <table>, <p>, <ul>

<td> e <tr> nãoo Cria uma árvore numerada representando blocoso Clusteriza blocos através do estilo, posição na página e numeração o Mede a similaridade entre blocos através da word offset distribution

dos termoso Afirma que o método é 40% mais rápido que outros

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 11: Ruidos

Técnicas de identificação de blocos

• Wang, Y., Fang, B., Cheng, X., Guo, L., and Xu, H. (2008). Incremental web page template detection by text segments. volume 0, pages 174–180. IEEE Computer Society, Los Alamitos, CA, USA.o Problema: coleta das páginas em lote para exame gera atraso e

aumento do armazenamentoo Segmenta página em <table> e <div>, e segmentos de texto visíveiso Sugere representação compactao Tabela de segmentos de texto: conteúdos e frequênciao Atualização da tabela

inserção simples, logística para deleçãoo Calcula taxa de ruídos de cada bloco encontrando segmentos de texto

iguais em blocos com o mesmo "caminho";o Limiar determina se é template ou nãoo Diminui armazenamento para 7% e acaba com delay

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 12: Ruidos

Técnicas de identificação de blocos

• Wang, Y., Fang, B., Cheng, X., Guo, L., and Xu, H. (2008). Incremental web page template detection by text segments. volume 0, pages 174–180. IEEE Computer Society, Los Alamitos, CA, USA.

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 13: Ruidos

Técnicas de segmentação visual

• Cai, D., Yu, S., rong Wen, J., ying Ma, W., Cai, D., Yu, S., rong Wen, J., and ying Ma, W. (2003). Vips: a vision-based page segmentation algorithm.o Segmentação baseada em dicas espaciais e visuaiso Usuários possuem expectativa implícitao Segmenta em blocos baseado através heurísticas que analisam a DOM,

além de informações visuais e espaciaiso Encontra separadores e atribui pesos diferenteso Estrutura hierárquicao Grau de coerência dos blocos, refina se estiver abaixo de um limiaro 93% das vezes detectou a estrutura como um humano

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 14: Ruidos

Técnicas de segmentação visual

• Cai, D., Yu, S., rong Wen, J., ying Ma, W., Cai, D., Yu, S., rong Wen, J., and ying Ma, W. (2003). Vips: a vision-based page segmentation algorithm.

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 15: Ruidos

Técnicas de segmentação visual

• Cai, D., Yu, S., rong Wen, J., ying Ma, W., Cai, D., Yu, S., rong Wen, J., and ying Ma, W. (2003). Vips: a vision-based page segmentation algorithm.

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 16: Ruidos

Técnicas de segmentação visual

• Fernandes, D., de Moura, E. S., Ribeiro-Neto, B., da Silva, A. S., and Goncalves, M. A. (2007). Computing block importance for searching on web sites. In Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, CIKM ’07, pages 165–174. ACM, New York, NY, USA.o Foco na atribuição de importância a blocoso Segmenta utilizando VIPSo Classes de páginas (mesma estrutura), classes de blocos (mesmo

rótulo)o Calcula a ICF (Inverse Class Frequency) e AICF (Average ICF)o Classes de blocos com muita repetição terão AICF baixoo BCS (Block Class Spread) - Similaridade de cada bloco da classe com

outros blocos da página (relação com conteúdo principal)

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 17: Ruidos

Técnicas de segmentação visual

• Fernandes, D., de Moura, E. S., Ribeiro-Neto, B., da Silva, A. S., and Goncalves, M. A. (2007). Computing block importance for searching on web sites. In Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, CIKM ’07, pages 165–174. ACM, New York, NY, USA.

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 18: Ruidos

Técnicas de segmentação visual

• Li, J. and Ezeife, C. (2006). Cleaning web pages for effective web content mining. InBressan, S., KA 1 ng, J., and Wagner, R., editors, Database and Expert Systems Applications, volume 4080 of Lecture Notes in Computer Science, pages 560–571. Springer Berlin/ Heidelberg.o Sistema WebPageCleanero Segmenta utilizando VIPSo Armazena informações em tabela

Id bloco, id página, conteúdo, fingerprint, posição, % links, similaridade, importância

o Detecção de blocos idênticoso Similaridade de blocos baseado no conteúdo

Baseado em tokens comunso Importância do bloco: similaridade / 2, % de links / 3, posição / 6o Pega os N blocos mais importantes (valores menores), exporta e envia

para um classificador de textos

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 19: Ruidos

Técnicas de segmentação visual

• Song, R., Liu, H., Wen, J.-R., and Ma, W.-Y. (2004). Learning block importance models for web pages. In Proceedings of the 13th international conference on World Wide Web, WWW ’04, pages 203–211. ACM, New York, NY, USA.o Atribuição de importância a blocos é problema de aprendizadoo Segmenta utilizando VIPSo Extrai vetores de atributos espaciais e de conteúdo para cada bloco

Coordenadas de posicionamento normalizadas com valor fixo Número e tamanho das imagens, número e quantidade de texto dos links,

quantidade de texto, número e tamanho de componentes de interação, número e tamanho de formulários (todos normalizados)

o Aprendizado através de exemploso Se for problema de regressão (valor da importância contínuo), usa redes neuraiso Se for problema de classificação (valor da importância discreto), usa SVMo 80% de precisão na atribuição de valor a um bloco, semelhante a humanos

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 20: Ruidos

Técnicas de segmentação visual

• Kovacevic, M., Diligenti, M., Gori, M., and Milutinovic, V. (2002). Recognition of common areas in a web page using visual information: a possible application in a page classification. In Data Mining, 2002. ICDM 2003. Proceedings. 2002 IEEE International Conference on, pages 250 – 257.o Informação visual é tão importante quanto a entropia dos termoso Importância da expectativa dos usuários quanto ao posicionamento de

informações e linkso Nova representação, hierárquica, com coordenadas para cada elemento

HTMLo Monta uma árvore com atributos e conteúdoo Define uma tela virtual com sistema de coordenadaso Algoritmo de renderização aplica coordenadas na árvoreo Utiliza a estrutura para aplicar heurísticas de reconhecimento de áreas

comuns

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 21: Ruidos

Técnicas de similaridade estrutural

• Yi, L., Liu, B., and Li, X. (2003). Eliminating noisy information in web pages for data mining. In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’03, pages 296–305. ACM, New York, NY, USA.o DOM insuficiente para captar estilos e entropia do conteúdo de várias

páginaso Árvore Site Style Tree (SST) permite verificar ramificações comunso SST

Mais do que um nodo da DOM Contador e o estilo dos nodos

o Atualiza a SST a cada página coletadao Calcula a entropia de cada nodo com medidas de Teoria da Informação

Leva em consideração a entropia de seus descendentes Combinação do conteúdo e estilo para detectar templates

o Avalia classificação e clusterização das páginas e mostram melhoria significativa

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 22: Ruidos

Técnicas de similaridade estrutural

• Yi, L., Liu, B., and Li, X. (2003). Eliminating noisy information in web pages for data mining. In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’03, pages 296–305. ACM, New York, NY, USA.

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 23: Ruidos

Técnicas de similaridade estrutural

• Yi, L., Liu, B., and Li, X. (2003). Eliminating noisy information in web pages for data mining. In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’03, pages 296–305. ACM, New York, NY, USA.

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 24: Ruidos

Técnicas de similaridade estrutural

• Vieira, K., da Silva, A. S., Pinto, N., de Moura, E. S., Cavalcanti, J. a. M. B., and Freire, J. (2006). A fast and robust method for web page template detection and removal. In Proceedings of the 15th ACM international conference on Information and knowledge management, CIKM ’06, ages 258–267. ACM, New York, NY, USA. o Problema: encontrar uma sub-estrutura entre árvores DOM

Fase de detecção (custosa) Fase de eliminação (barata)

o Distância de edição de árvores Sequência de operações que transformam uma árvore em outra Restrita a folhas

o Armazena as operações que levaram ao mapeamento de custo mínimo para posterior reconstrução dessa ramificação

o Detecção dessa ramificação permite eliminar o ruídoo Necessita apenas de 5 a 10% do número de páginas para detecção em

comparação com SSTs

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 25: Ruidos

Técnicas de similaridade estrutural

• Vieira, K., da Silva, A. S., Pinto, N., de Moura, E. S., Cavalcanti, J. a. M. B., and Freire, J. (2006). A fast and robust method for web page template detection and removal. In Proceedings of the 15th ACM international conference on Information and knowledge management, CIKM ’06, ages 258–267. ACM, New York, NY, USA.

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 26: Ruidos

Técnicas híbridas

• Kushmerick, N. (1999). Learning to remove internet advertisements. In Proceedings of the third annual conference on Autonomous Agents, AGENTS ’99, pages 175–181. ACM, New York, NY, USA. o Foco: remover imagens de propaganda o Trabalho mais antigoo AdEater - sistema de navegaçãoo Fase de Treino:

Rotulação das imagens como propaganda ou nãoo Geração de um classificador

Vetor de atributos: tamanho, posição, localização do servidor e conteúdo textual

Apenas imagens com linkso Utiliza algoritmo de aprendizado C4.5, deriva conjunto de 25 regraso Implementa proxy para evitar o download da imagemo 6 minutos fase de treinamento, 70ms remoção da imagem (1999)o 97% de precisão

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 27: Ruidos

Técnicas híbridas

• Kushmerick, N. (1999). Learning to remove internet advertisements. In Proceedings of the third annual conference on Autonomous Agents, AGENTS ’99, pages 175–181. ACM, New York, NY, USA.

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 28: Ruidos

Técnicas híbridas

• Kushmerick, N. (1999). Learning to remove internet advertisements. In Proceedings of the third annual conference on Autonomous Agents, AGENTS ’99, pages 175–181. ACM, New York, NY, USA.

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 29: Ruidos

Quadro Comparativo1. Intervenção Manual2. Métodos de Aprendizagem3. Tags utilizadas4. Utilização do VIPS

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

5. Conteúdo textual6. Folhas de estilo7. Densidade de links

Page 30: Ruidos

Conclusões

• Importância da detecção e remoção de ruídos• Difícil eleger uma técnica melhor que a outra• Cada vez menos intervenção manual• Trabalhos futuros

o Implementar as técnicas

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 31: Ruidos

Obrigado!

Perguntas?

João Adolfo [email protected]