Ruidos

31
João Adolfo Lutz [email protected] Estudo sobre eliminação de ruídos em páginas Web

Transcript of Ruidos

Page 1: Ruidos

João Adolfo [email protected]

Estudo sobre eliminação de ruídos em páginas Web

Page 2: Ruidos

Roteiro

1. Ruídos2. Problemas associados3. Técnicas existentes4. Quadro comparativo5. Conclusões

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 3: Ruidos

O que são ruídos em páginas web?

● Elementos não informativos● Repetição de conteúdo● 50% da web [Gibson et al. 2005]● Remoção de templates● Detecção de conteúdo informativo

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 4: Ruidos

Exemplo de ruídos

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 5: Ruidos

Problemas associados aos ruídos

● Afeta performance de sistemas de IR● Motores de busca

○ Aumento do índice○ Aumento de armazenamento○ Prejudica o ranking - perda de precisão

● Classificação e clusterização

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 6: Ruidos

Técnicas de eliminação de ruídos

● Descrição dos métodos da literatura atual● Divisão em 3 grandes grupos

○ Técnicas baseadas em identificação de blocos○ Técnicas baseadas em segmentação visual○ Técnicas baseadas em similaridade estrutural○ Técnica híbrida

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 7: Ruidos

Técnicas de identificação de blocos

● Bar-Yossef, Z. and Rajagopalan, S. (2002). Template detection via data mining and its applications. In Proceedings of the 11th international conference on World Wide Web, WWW ’02, pages 580–591. ACM, New York, NY, USA

○ Definição formal de template○ Definição de pagelets

■ Unidade melhor do que páginas inteiras para RI○ Detecção de pagelets baseado na densidade de links○ Encontra templates a partir da repetição de pagelets

■ Frequent item set○ Melhorias na precisão e revocação em algoritmos de RI

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 8: Ruidos

Técnicas de identificação de blocos

● Debnath, S., Mitra, P., and Giles, C. L. (2005). Automatic extraction of informative blocks from webpages. In Proceedings of the 2005 ACM symposium on Applied computing, SAC ’05, pages 1722–1726. ACM, New York, NY, USA.

○ Entrada dos algoritmos: páginas de uma mesma classe○ FeatureExtractor: heurísticas para identificação de blocos

■ Conteúdo textual, tags <tr>, <p>, <hr> e <ul>, listas e propriedades de estilo

○ ContentExtractor: IBDF (Inverse Block Document Frequency)○ Similaridade entre blocos calculada a partir de vetores de atributos

■ Número de termos, número de imagens, número de javascript e matriz binária de termos

○ Determina blocos relevantes através de um limiar○ Resultados melhores que a próxima técnica

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 9: Ruidos

Técnicas de identificação de blocos

● Lin, S.-H. and Ho, J.-M. (2002). Discovering informative content blocks from web documents. In Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’02, pages 588–593. ACM, New York, NY, USA.

○ Particiona a páginas conforme tags <table>■ Razões históricas

○ Durante este parsing, recupera o conteúdo textual, remove stop-words e aplica stemming de Porter

○ Após calcular TF-IDF, calcula grau de entropia de cada termo ○ Grau de entropia de cada bloco é a soma da entropia dos termos ○ Quando um bloco excede um limiar, é considerado irrelevante

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 10: Ruidos

Técnicas de identificação de blocos

● Chen, L., Ye, S., and Li, X. (2006). Template detection for large scale search engines.In Proceedings of the 2006 ACM symposium on Applied computing, SAC ’06, pages 1094–1098. ACM, New York, NY, USA.

○ Foco maior na melhoria da velocidade○ Método anexado ao processo de indexação de um SE○ Segmenta a página a partir de <table>, <p>, <ul>

■ <td> e <tr> não○ Cria uma árvore numerada representando blocos○ Clusteriza blocos através do estilo, posição na página e numeração ○ Mede a similaridade entre blocos através da word offset distribution

dos termos○ Afirma que o método é 40% mais rápido que outros

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 11: Ruidos

Técnicas de identificação de blocos

● Wang, Y., Fang, B., Cheng, X., Guo, L., and Xu, H. (2008). Incremental web page template detection by text segments. volume 0, pages 174–180. IEEE Computer Society, Los Alamitos, CA, USA.

○ Problema: coleta das páginas em lote para exame gera atraso e aumento do armazenamento

○ Segmenta página em <table> e <div>, e segmentos de texto visíveis○ Sugere representação compacta○ Tabela de segmentos de texto: conteúdos e frequência○ Atualização da tabela

■ inserção simples, logística para deleção○ Calcula taxa de ruídos de cada bloco encontrando segmentos de

texto iguais em blocos com o mesmo "caminho";○ Limiar determina se é template ou não○ Diminui armazenamento para 7% e acaba com delay

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 12: Ruidos

Técnicas de identificação de blocos

● Wang, Y., Fang, B., Cheng, X., Guo, L., and Xu, H. (2008). Incremental web page template detection by text segments. volume 0, pages 174–180. IEEE Computer Society, Los Alamitos, CA, USA.

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 13: Ruidos

Técnicas de segmentação visual

● Cai, D., Yu, S., rong Wen, J., ying Ma, W., Cai, D., Yu, S., rong Wen, J., and ying Ma, W. (2003). Vips: a vision-based page segmentation algorithm.

○ Segmentação baseada em dicas espaciais e visuais○ Usuários possuem expectativa implícita○ Segmenta em blocos baseado através heurísticas que analisam a

DOM, além de informações visuais e espaciais○ Encontra separadores e atribui pesos diferentes○ Estrutura hierárquica○ Grau de coerência dos blocos, refina se estiver abaixo de um limiar○ 93% das vezes detectou a estrutura como um humano

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 14: Ruidos

Técnicas de segmentação visual

● Cai, D., Yu, S., rong Wen, J., ying Ma, W., Cai, D., Yu, S., rong Wen, J., and ying Ma, W. (2003). Vips: a vision-based page segmentation algorithm.

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 15: Ruidos

Técnicas de segmentação visual

● Cai, D., Yu, S., rong Wen, J., ying Ma, W., Cai, D., Yu, S., rong Wen, J., and ying Ma, W. (2003). Vips: a vision-based page segmentation algorithm.

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 16: Ruidos

Técnicas de segmentação visual

● Fernandes, D., de Moura, E. S., Ribeiro-Neto, B., da Silva, A. S., and Goncalves, M. A. (2007). Computing block importance for searching on web sites. In Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, CIKM ’07, pages 165–174. ACM, New York, NY, USA.

○ Foco na atribuição de importância a blocos○ Segmenta utilizando VIPS○ Classes de páginas (mesma estrutura), classes de blocos (mesmo

rótulo)○ Calcula a ICF (Inverse Class Frequency) e AICF (Average ICF)○ Classes de blocos com muita repetição terão AICF baixo○ BCS (Block Class Spread) - Similaridade de cada bloco da classe

com outros blocos da página (relação com conteúdo principal)

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 17: Ruidos

Técnicas de segmentação visual

● Fernandes, D., de Moura, E. S., Ribeiro-Neto, B., da Silva, A. S., and Goncalves, M. A. (2007). Computing block importance for searching on web sites. In Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, CIKM ’07, pages 165–174. ACM, New York, NY, USA.

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 18: Ruidos

Técnicas de segmentação visual

● Li, J. and Ezeife, C. (2006). Cleaning web pages for effective web content mining. InBressan, S., KA 1 ng, J., and Wagner, R., editors, Database and Expert Systems Applications, volume 4080 of Lecture Notes in Computer Science, pages 560–571. Springer Berlin/ Heidelberg.

○ Sistema WebPageCleaner○ Segmenta utilizando VIPS○ Armazena informações em tabela

■ Id bloco, id página, conteúdo, fingerprint, posição, % links, similaridade, importância

○ Detecção de blocos idênticos○ Similaridade de blocos baseado no conteúdo

■ Baseado em tokens comuns○ Importância do bloco: similaridade / 2, % de links / 3, posição / 6○ Pega os N blocos mais importantes (valores menores), exporta e envia

para um classificador de textos

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 19: Ruidos

Técnicas de segmentação visual

● Song, R., Liu, H., Wen, J.-R., and Ma, W.-Y. (2004). Learning block importance models for web pages. In Proceedings of the 13th international conference on World Wide Web, WWW ’04, pages 203–211. ACM, New York, NY, USA.

○ Atribuição de importância a blocos é problema de aprendizado○ Segmenta utilizando VIPS○ Extrai vetores de atributos espaciais e de conteúdo para cada bloco

■ Coordenadas de posicionamento normalizadas com valor fixo■ Número e tamanho das imagens, número e quantidade de texto dos

links, quantidade de texto, número e tamanho de componentes de interação, número e tamanho de formulários (todos normalizados)

○ Aprendizado através de exemplos○ Se for problema de regressão (valor da importância contínuo), usa redes

neurais○ Se for problema de classificação (valor da importância discreto), usa SVM○ 80% de precisão na atribuição de valor a um bloco, semelhante a humanos

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 20: Ruidos

Técnicas de segmentação visual

● Kovacevic, M., Diligenti, M., Gori, M., and Milutinovic, V. (2002). Recognition of common areas in a web page using visual information: a possible application in a page classification. In Data Mining, 2002. ICDM 2003. Proceedings. 2002 IEEE International Conference on, pages 250 – 257.

○ Informação visual é tão importante quanto a entropia dos termos○ Importância da expectativa dos usuários quanto ao posicionamento

de informações e links○ Nova representação, hierárquica, com coordenadas para cada

elemento HTML○ Monta uma árvore com atributos e conteúdo○ Define uma tela virtual com sistema de coordenadas○ Algoritmo de renderização aplica coordenadas na árvore○ Utiliza a estrutura para aplicar heurísticas de reconhecimento de áreas

comuns

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 21: Ruidos

Técnicas de similaridade estrutural

● Yi, L., Liu, B., and Li, X. (2003). Eliminating noisy information in web pages for data mining. In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’03, pages 296–305. ACM, New York, NY, USA.

○ DOM insuficiente para captar estilos e entropia do conteúdo de várias páginas

○ Árvore Site Style Tree (SST) permite verificar ramificações comuns○ SST

■ Mais do que um nodo da DOM■ Contador e o estilo dos nodos

○ Atualiza a SST a cada página coletada○ Calcula a entropia de cada nodo com medidas de Teoria da Informação

■ Leva em consideração a entropia de seus descendentes■ Combinação do conteúdo e estilo para detectar templates

○ Avalia classificação e clusterização das páginas e mostram melhoria significativa

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 22: Ruidos

Técnicas de similaridade estrutural

● Yi, L., Liu, B., and Li, X. (2003). Eliminating noisy information in web pages for data mining. In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’03, pages 296–305. ACM, New York, NY, USA.

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 23: Ruidos

Técnicas de similaridade estrutural

● Yi, L., Liu, B., and Li, X. (2003). Eliminating noisy information in web pages for data mining. In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’03, pages 296–305. ACM, New York, NY, USA.

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 24: Ruidos

Técnicas de similaridade estrutural

● Vieira, K., da Silva, A. S., Pinto, N., de Moura, E. S., Cavalcanti, J. a. M. B., and Freire, J. (2006). A fast and robust method for web page template detection and removal. In Proceedings of the 15th ACM international conference on Information and knowledge management, CIKM ’06, ages 258–267. ACM, New York, NY, USA.

○ Problema: encontrar uma sub-estrutura entre árvores DOM■ Fase de detecção (custosa)■ Fase de eliminação (barata)

○ Distância de edição de árvores■ Sequência de operações que transformam uma árvore em outra■ Restrita a folhas

○ Armazena as operações que levaram ao mapeamento de custo mínimo para posterior reconstrução dessa ramificação

○ Detecção dessa ramificação permite eliminar o ruído○ Necessita apenas de 5 a 10% do número de páginas para detecção em

comparação com SSTs

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 25: Ruidos

Técnicas de similaridade estrutural

● Vieira, K., da Silva, A. S., Pinto, N., de Moura, E. S., Cavalcanti, J. a. M. B., and Freire, J. (2006). A fast and robust method for web page template detection and removal. In Proceedings of the 15th ACM international conference on Information and knowledge management, CIKM ’06, ages 258–267. ACM, New York, NY, USA.

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 26: Ruidos

Técnicas híbridas

● Kushmerick, N. (1999). Learning to remove internet advertisements. In Proceedings of the third annual conference on Autonomous Agents, AGENTS ’99, pages 175–181. ACM, New York, NY, USA.

○ Foco: remover imagens de propaganda ○ Trabalho mais antigo○ AdEater - sistema de navegação○ Fase de Treino:

■ Rotulação das imagens como propaganda ou não○ Geração de um classificador

■ Vetor de atributos: tamanho, posição, localização do servidor e conteúdo textual

■ Apenas imagens com links○ Utiliza algoritmo de aprendizado C4.5, deriva conjunto de 25 regras○ Implementa proxy para evitar o download da imagem○ 6 minutos fase de treinamento, 70ms remoção da imagem (1999)○ 97% de precisão

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 27: Ruidos

Técnicas híbridas

● Kushmerick, N. (1999). Learning to remove internet advertisements. In Proceedings of the third annual conference on Autonomous Agents, AGENTS ’99, pages 175–181. ACM, New York, NY, USA.

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 28: Ruidos

Técnicas híbridas

● Kushmerick, N. (1999). Learning to remove internet advertisements. In Proceedings of the third annual conference on Autonomous Agents, AGENTS ’99, pages 175–181. ACM, New York, NY, USA.

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 29: Ruidos

Quadro Comparativo1. Intervenção Manual2. Métodos de Aprendizagem3. Tags utilizadas4. Utilização do VIPS

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

5. Conteúdo textual6. Folhas de estilo7. Densidade de links

Page 30: Ruidos

Conclusões

● Importância da detecção e remoção de ruídos● Difícil eleger uma técnica melhor que a outra● Cada vez menos intervenção manual● Trabalhos futuros

○ Implementar as técnicas

Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões

Page 31: Ruidos

Obrigado!

Perguntas?

João Adolfo [email protected]