Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.
-
Upload
maria-do-pilar-chaplin-palma -
Category
Documents
-
view
219 -
download
3
Transcript of Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.
![Page 1: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/1.jpg)
Medidas de Interesse
Mineração de Dados
Aluno: Thiago José Marques Moura
![Page 2: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/2.jpg)
Roteiro
DefiniçãoMedidas de interesse para classificaçãoMedidas de interesse para associaçãoMedidas de interesse para generalizaçãoMedidas de interesse genêricasConclusão.
![Page 3: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/3.jpg)
Descrição
“Um importante problema na área de Data Mining, seria o desenvolvimento de eficientes medidas de
interesse para criar um ranking dos conhecimentos descobertos”
1/3
![Page 4: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/4.jpg)
Definição
Problema de KDD: medidas de interesse para ordenar conhecimentos descobertos”
Tipicamente inúmeros padrões são gerados,mas poucos são realmente interessantes
Medida de interesse: técnicas para ordenar padrões em ordem de interesse decrescente
![Page 5: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/5.jpg)
Descrição
“Tipicamente o número de padrões gerados é muito grande, mas somente alguns desses padrões são
prováveis de possuir algum interesse para o domínio esperado, quando analisamos os dados”
2/3
![Page 6: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/6.jpg)
Descrição
Para aumentar a utilidade, relevância e o proveito de padrões descobertos, técnicas são requeridas para reduzir o números de padrões que precisam ser
considerados. Técnicas que satisfazem esse objetivos são de um modo geral chamadas de
MEDIDAS DE INTERESSE.
3/3
![Page 7: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/7.jpg)
Base de exemplos
Descrição Domínio Atributos
![Page 8: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/8.jpg)
Medidas para classificação
Piats,,JnlnKnnlknl.
![Page 9: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/9.jpg)
Metodo 1
Formula explicação
![Page 10: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/10.jpg)
Metodo 1
Exemplo na base
![Page 11: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/11.jpg)
Comparação das medidas para classificação
![Page 12: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/12.jpg)
Método 1: Função de Regra de Interesse de Piatetsky-Shapiro
-Definição:
A função de regra de interesse é usada para qualificar a correlação entre atributos em uma simples regra de classificação.
1/2
![Page 13: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/13.jpg)
Método 1: Função de Regra de Interesse de Piatetsky-Shapiro
-Regra:
2/2
N - Número total de tuplas
|X| e |Y| - Número de tuplas que satisfazem as condições X e Y (respectivamente).
|X Y| - Número de tuplas que satisfaz XY.
|X||Y|/N – Número de tuplas esperado se X e Y eram independentes.
![Page 14: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/14.jpg)
Método 2: Medida J de Smyth e Goodman
-Definição:
A medida J é a média de informação satisfeita por uma probabilística regra de classificação e é usada para encontrar as melhores regras relacionadas com atributos de valores discretos.
1/2
![Page 15: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/15.jpg)
Método 2: Medida J de Smyth e Goodman
-Regra:
2/2
-Onde:
p(x), p(y) e p(x|y) – são as probabilidades de ocorrência de x, y e x dado y, e o termo entre colchetes é a entropia relativa.
![Page 16: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/16.jpg)
Método 3: Regra de Refinamento de Major e Mangano
-Definição:
É uma estratégia usada para induzir regras de classificação interessantes de um banco de dados de regras de classificação.
-Consiste em 3 fases:
- Identificar potencialmente regras de interesse;
- Identificar tecnicamente regras de interesse;
- Remover regras que não são verdadeiramente interessantes.
![Page 17: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/17.jpg)
Método 4: Medidas de Conjunto de Itens de Agrawal e Srikant
-Definição:
São usadas para identificar ocorrências freqüentes de regras de associação de conjuntos de itens em grandes bancos de dados.
?????????????????????????
![Page 18: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/18.jpg)
Método 5: Templates de Regras de Klemettinen et al.
-Definição:
São usados para descrever um padrão para aqueles atributos que podem aparecer no lado esquerdo ou direito de uma regra de associação.
1/2
![Page 19: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/19.jpg)
Método 5: Templates de Regras de Klemettinen et al.
-Regra:
2/2
Onde:
Cada Ai é um nome de atributo, nome de classe ou uma expressão C+ ou C*, C é o nome da classe.
-Templates de Regras podem ser inclusivo ou restritivo.
![Page 20: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/20.jpg)
Método 6: Salvamento Projetado de Matheus e Piatetsky-Shapiro
-Definição:
Salvamento projetado: é a medida que avalia o impacto financeiro do custo de desvios de alguns valores padronizados ou esperados.
1/2
![Page 21: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/21.jpg)
Método 6: Salvamento Projetado de Matheus e Piatetsky-Shapiro
-Regra:
2/2
PS = PI * SP
Onde PI é o impacto projetado e SP é o percentual de salvamento.
PI = PD * IF
Onde PD é a diferença entre a média corrente do custo e o padronizado ou esperado custo de alguns produtos ou serviços e IF é o fator de impacto.
![Page 22: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/22.jpg)
Método 7: Medidas I de Hamilton e Fudger
-Definição:
São usadas para determinar a importância do conhecimento descoberto, presente na forma de relações generalizadas ou resumidas, baseada sob a estrutura do conceito de hierarquias associadas com os atributos na original relação não generalizada .
1/2
![Page 23: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/23.jpg)
Método 7: Medidas I de Hamilton e Fudger
-Regra:
2/2
Onde:
v é um atributo valor, t(v) é o conceito hierárquico associado com o atributo contendo v, e c(t(v)) é a função que retorna 1 se v é non-ANY, non-leaf, e 0 otherwise. ?????????????????????????????
![Page 24: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/24.jpg)
Método 8: Interesses de Silbershatz e Tuzhilin
-Definição:
Determina a extensão em que a crença de um soft é mudada como um resultado de encontro de novas evidências (ex. conhecimento descoberto).
1/2
![Page 25: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/25.jpg)
Método 8: Interesses de Silbershatz e Tuzhilin
-Regra:
2/2
Onde:
é a crença, E é a nova evidência, é a evidência prévia suportada pela crença , p( | ) é a confidência na crença , e p( |E, ) é a nova confidência na crença dada a nova evidência E.
-É usado o teorema de Bayes para determinar uma nova confidência,
![Page 26: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/26.jpg)
Método 9: Interesses Kamber e Shinghal
-Definição:
Determina o interesse das regras de classificação baseadas sob necessidade e suficiência. Existem 2 tipos de regras de classificação: discriminante e característico. Uma regra discriminante, e h, onde e é a evidência e h a hipótese, resumem as condições suficientes para distinguir uma classe da outra.
1/2
![Page 27: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/27.jpg)
Método 9: Interesses Kamber e Shinghal
-Regra Suficiência:
2/2
-Regra Necessidade:
![Page 28: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/28.jpg)
Método 10: Credibilidade de Hamilton et al.
-Definição:
Determina a extensão com a qual uma classificação prover decisões para todos ou quase todos os possíveis valores de atributos de condições, baseados sob evidências adequadamente suportadas.
1/3
![Page 29: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/29.jpg)
Método 10: Credibilidade de Hamilton et al.
-Regra da Credibilidade:
2/3
Onde:
-E é uma classe equivalente
-C é uma classificação
-QE (C) é a qualidade da classificação C
-I é o número atual de instâncias que suportam a classe equivalente E
-M é o número mínimo de instâncias requeridas por um crédito de classificação
-mim(I/M,1) é o fator que assegura o peso proporcional e é associado a classes equivalentes não suportadas por um número adequado de instâncias.
![Page 30: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/30.jpg)
Método 10: Credibilidade de Hamilton et al.
-Função de Qualidade:
3/3
Onde:
- é o fator de normalização que assegura que QE(C) seja sempre do intervalo [0,1].
-p(E) é a probabilidade de classes equivalentes E.
-p(F|E) é a probabilidade condicional de ocorrência do conceito F dado que E ocorreu.
-p(F) é a probabilidade do conceito F.
Fator de normalização:
![Page 31: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/31.jpg)
Método 11: Distância Métrica de Gago e Bento
-Descrição:
Mede a distância entre duas regras e é usada para determinar as regras que provêem a mais alta cobertura para os dados mostrados.
-Distância Métrica:
![Page 32: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/32.jpg)
Método 12: Interesses de Gray e Orlowska1/2
-Descrição:
É usado para avaliar a força das associações entre os conjuntos de itens de transações. Enquanto suporte e confidência tem sido mostrados para serem úteis para caracterizar regras de associação, interesses contém um componente discriminante que dá uma indicação de independência a um antecedente e conseqüente.
![Page 33: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/33.jpg)
Método 12: Interesses de Gray e Orlowska2/2
-Interesse:
Onde:
-P(XY) é a confidência
-P(X) x P(Y) é o suporte
- é o discriminante
-k e m são parâmetros para o peso da importância relativa do discriminante e suporte a componentes, respectivamente.
![Page 34: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/34.jpg)
Método 13: Interesses de Dong e Li1/3
-Definição:
É usado para avaliar a importância de uma regra de associação considerando ela sem expectativa em termos de outras regras de associação na sua vizinhança.
A vizinhança de uma regra de associação consiste de todas as regras de associação em uma dada distância.
![Page 35: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/35.jpg)
Método 13: Interesses de Dong e Li2/3
-Distância Métrica:
Onde:
-R1 = X1 Y1, R2 = X2 Y2, 1, 2 e 3 são parâmetros de peso da importância relativa para todos os 3 termos
é um operador que denota a diferença simétrica entre X e Y.
-Vizinhança – R é usada para definir o interesse de uma regra:
![Page 36: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/36.jpg)
Método 13: Interesses de Dong e Li3/3
-2 tipos de interesses:
1) Confidência inesperada de interesse:
2) Interesse Isolado:
![Page 37: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/37.jpg)
Método 14: Peculiaridade de Zhong et al.1/2
-Descrição:
Peculiaridade é usado para determinar a extensão de um objeto de dado que difere de outros objetos de dados similares.
Fator de Peculiaridade:
Onde:
- xi e xj são atributos valores
- n é o número de diferença de atributos valores
- N (xi,xj) é a distância conceitual entre xi e xj
![Page 38: Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.](https://reader035.fdocumentos.com/reader035/viewer/2022062522/5706384a1a28abb8238f508b/html5/thumbnails/38.jpg)
Conclusão