Uma Estratégia para Seleção de Atributos Relevantes no...

Post on 10-Sep-2019

7 views 0 download

Transcript of Uma Estratégia para Seleção de Atributos Relevantes no...

Gabrielle K. Canalle Bernadette Farias Lóscio

Ana Carolina Salgado

Universidade Federal de Pernambuco

Centro de Informática

Uma Estratégia para Seleção de

Atributos Relevantes no Processo de

Resolução de Entidades

CIn.ufpe.br

Agenda

Motivação

Estratégia de Seleção de Atributos

Avaliação Experimental

Conclusão e Trabalhos Futuros

2

CIn.ufpe.br

Agenda

Motivação

Estratégia de Seleção de Atributos

Avaliação Experimental

Conclusão e Trabalhos Futuros

3

CIn.ufpe.br

Introdução

4

CIn.ufpe.br

Integração de Dados

Diferentes fontes

de dadosDados Integrados

5

CIn.ufpe.br

Etapas da Integração de Dados

Alinhamento de

Esquemas

Resolução de Entidades

Fusão de Dados

6

CIn.ufpe.br

Etapas da Integração de Dados

Alinhamento de

Esquemas

Resolução de Entidades

Fusão de Dados

7

CIn.ufpe.br

Resolução de Entidades

Blocagem

Correspondência de Pares

Classificação

8

CIn.ufpe.br

Resolução de Entidades

Blocagem

Correspondência de Pares

Classificação

9

CIn.ufpe.br

±

CORRESPONDENTES

NÃO CORRESPONDENTES

POTENCIALMENTE CORRESPONDENTES

Resolução de Entidades

Blocagem

Correspondência de Pares

Classificação

10

CIn.ufpe.br

Cenário Motivacional

11

CIn.ufpe.br

Cenário Motivacional

Não Duplicadas

12

CIn.ufpe.br

Cenário Motivacional

Duplicadas

13

CIn.ufpe.br

Cenário Motivacional

Não Duplicadas

14

CIn.ufpe.br

Como selecionar os atributos mais relevantes

para serem utilizados na fase de correspondência

entre pares do processo de Resolução de

Entidades?

15

CIn.ufpe.br

Agenda

Motivação

Estratégia de Seleção de Atributos

Avaliação Experimental

Conclusão e Trabalhos Futuros

16

CIn.ufpe.br

Visão geral da Estratégia

Classificação ordenada

17

CIn.ufpe.br

Visão geral da Estratégia

E1

E2 E3

a1

a2

a3

a4

a5

a6

a7

a5

Conjunto de Atributos

Comuns

18

CIn.ufpe.br

Visão geral da Estratégia

Conjunto de EntidadesConjunto de Atributos Comuns

Classificação ordenada

19

CIn.ufpe.br

Critérios de Avaliação

20

CIn.ufpe.br

Repetição

Quantidade de vezes que um mesmo valor para um

atributo aparece no conjunto de dados

21

CIn.ufpe.br

Densidade

Percentual de valores na o nulos contidos no conjunto

de valores que descreve um atributo

22

CIn.ufpe.br

Dinamicidade

Grau de dinamicidade dos atributos, ou seja, seu ni vel

de alterac a o ao longo do tempo

23

CIn.ufpe.br

Ruído

Quanto um atributo e suscetível a erros. O rui do e um

erro aleatorio ou variabilidade presente nos valores

de entrada de um atributo.

24

CIn.ufpe.br

Confiabilidade

Grau em que os dados fornecidos por uma

fonte de dados sa o veri dicos e confia veis

– Estimado por meio de metadados de qualidade

associados as fontes de dados

25

CIn.ufpe.br

Cobertura

Percentual de insta ncias que uma fonte de

dados fornece para o conjunto de dados

avaliado

26

CIn.ufpe.br

Análise de Relevância Individual

• Neste trabalho, implementamos os critérios de Repetição e

Densidade

• Repetição –

• Densidade –

• Relevância Individual –

27

CIn.ufpe.br

Análise de Relevância Global

– ponderar a relevancia de um atributo utilizando critérios de qualidade das fontes

– calculo da Relevância Individual, apenas os valores dos dados sao levados emconsiderac ao

• Cobertura

• Qualidade do Conjunto de Fontes de Dados

• Relevância Global

28

CIn.ufpe.br

Agenda

Motivação

Estratégia de Seleção de Atributos

Avaliação Experimental

Conclusão e Trabalhos Futuros

29

CIn.ufpe.br

Hipóteses

H1 - Considerar todos os atributos na fase de comparac ao ocasiona em um resultado com baixo

F-measure.

H2 - Considerar os atributos mais relevantes de acordo com a classificac ao realizada pela

estrategia proposta faz com que o resultado obtido tenha um alto F-measure.

H3 - A medida que atributos menos relevantes sao adicionados ao grupo de atributos

considerados, o numero de corresponde ncias erradas aumenta, diminuindo o F-measure do

resultado.

30

CIn.ufpe.br

Avaliação Experimental

• Dominio de referencias bibliograficas de Ciencia da Computac ao– Base de dados Cora

• 1.879 instâncias

• 15 atributos

• Aproximadamente 90% de duplicação

• Gold Standard

• Particionada em diferentes cenários de duplicação

• Ferramenta para Resolução de Entidades– DuDe – Duplicate Detection

• Java

• Estrutura modular

• Medidas de Qualidade• Revocação(Recall)

• Precisão (Precision)

• Medida F (F-measure)

31

CIn.ufpe.br

Cenário

32

CIn.ufpe.br

Grupos de Atributos

Grupo 1 – dois atributos mais relevantes

Grupo 2 – três atributos mais relevantes

Grupo 3 – quatro atributos mais relevantes

Grupo 4 – oito atributos mais relevantes

33

CIn.ufpe.br

Cenário 1

34

1

0,66 0,66

0

0

CIn.ufpe.br

Cenário 2

35

0,82

0,46

0,33

0

CIn.ufpe.br

Cenário 3

36

0,460,40

0,36

0

0

CIn.ufpe.br

Cenário 4

37

0,98 0,98

0,85

0

CIn.ufpe.br

Agenda

Motivação

Estratégia de Seleção de Atributos

Avaliação Experimental

Conclusão e Trabalhos Futuros

38

CIn.ufpe.br

Conclusão

• A estratégia proposta se mostrou eficiente em todos os

cenários.

• Confirmamos que utilizar uma grande quantidade de atributos

na Resolução de Entidades não é viável.

• Verificamos que, à medida que atributos com menor valor de

relevância são considerados na comparação, o F-measure

diminui.

• Os resultados obtidos por meio dos experimentos validaram

nossas hipóteses.

39

Universidade Federal de Pernambuco

Centro de Informática

Obrigada pela Atenção!

Dúvidas?

gkc@cin.ufpe.br