Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz.

Post on 18-Apr-2015

118 views 0 download

Transcript of Controle de inferência para sistemas de base de dados estatísticos Erlon Rodrigues Cruz.

Controle de inferência para sistemas de base de dados estatísticosErlon Rodrigues Cruz

Roteiro

Privacidade em bases de dadosBase de dados estatísticasGarantindo a privacidade

Perturbando os dadosReconstruindo a distribuiçãoClassificação dos dados em árvore de decisãoConclusãoBibliografia

Privacidade em bases de dados

A falta de privacidade na internet e meios de comunicação em geral pode fazer com que os usuários da internet se ponham em uma postura defensiva ao ser questionados em algum tipo de questionários.Registros detalhados de cartão de crédito de um indivíduo podem revelar seu estilo de vida.Isto prejudicaria não só as empresas mas também as pessoas que deixariam de receber os avanços provenientes da mineração de dados.

Privacidade em bases de dados

Quem se importa com privacidade?[Cranor]

17% dos usuários como fundamentalistas56% concordaria em fornecer dados desde que fosse mostrada alguma forma para proteção27% forneceria dados de qualquer forma

Pessoas podem não querer divulgar determinados dados enquanto não se importam com outros!Pessoas podem não ter controle ou mesmo não saber dos dados que são armazenados. Ex. Base de dados com informações medidas através de exames nos pacientes, registro de compras de um cartão de crédito.

A coleta de dados

O quem terá acesso às informações que eu irei fornecer?

Funcionários maliciososVenda de informações ou pela empresa, ou por algum de seus funcionáriosA própria organização

Base de dados acessadas por muitos usuários.Como proteger os dados dos registros e possibilitar que possa ser extraída alguma informação dos mesmos?A criação de barreiras legais para prover privacidade pode fazer com que seja necessário novos mecanismos para se atingir privacidade.Meta a ser atingida: Saber a distribuição dos dados e ser capaz de criar relações entre os dados protegendo os registros individuais.

Garantindo a privacidade

Formas inibidorasAuditoria dos acessos à base

Formas restritivasControle de acesso as diversas tabelas do banco

Ex. Médicos possuem acessos a dados de todos pacientesAos funcionários é dados acesso somente às somas estatísticas destes dados

Formas não-restritivasAgregação de valoresDistorção de valoresDissociação dos dados

Duas técnicas serão mostradas

Criar uma base de dados que proteja os registros e forneça dados estatísticos, i.e., distribuição dos valores, média, soma, etc.Criar uma base de dados que proteja os registros e não altere nas correlações entre os campos.

Base de dados estatística

O objetivo de uma base de dados estatística é prover freqüências, médias, somas e outras estatísticas referente à grupos, pessoas e organizações, protegendo os indivíduos representados na base de dados.

Um exemplo de base de dados estatística:

Questionário econômico financeiro.

Coletando dados

Válido somente para dados numéricos!

Foco nos dados que os usuários não querem fornecer

Perturbando os dadosOs valores fornecidos devem de alguma forma serem alterados antes que seja feita sua inserção na base.

Dois métodos para modificação são considerados:

DiscretizaçãoDistorção de valor: seja xi o campo a ser alterado

Uniforme: é somado à xi o valor aleatório r є[-α,+ α], sendo que a distribuição de xi dentro do intervalo é linear.

Gaussiana: é somado à xi o valor aleatório r є[-α,+ α], sendo que a distribuição de xi dentro do intervalo é uma gaussiana

Quantificação da privacidade

Se o valor original x pode ser estimado com uma confiança de c% implicando que x esteja no intervalo [x1,x2], então a amplitude do intervalo(x2-x1) quantifica a privacidade oferecida com c% de confiança.

W = 2αAumentando o intervalo α aumentamos o nível de privacidade

Intervalo de confiança

Distribuição normal

Dados concentrados sobre a média: Menor variância – Linha AmarelaDados dados mais dispersos: Maior variância – Linha Azul

Intervalo de confiançaPodemos estimar a probabilidade ‘c’ de que um valor esteja entre –z e z

Reconstrução da distribuição original

A técnica só é útil se pudermos reconstruir a distribuição dos registros originais a partir dos registros alterados!!! Será reconstruída a distribuição e não os registros individuais.Definições:

Valores originais: n valores, x1,x2,...,xn.Amostra aleatória igualmente distribuída: X1,X2,...XnVariáveis aleatórias para esconder os dados: Y1,Y2,...Yn.Fy é a função de distribuição de X1+Y1,X2+Y2,...Xn+YnFx é a função de distribuição original para X.wi = (xi + yi)

Reconstrução da distribuição original

Uma vez que conhecemos as distribuições de Yi, e wi e wi = (Yi + Xi), podemos saber a distribuição de Xi através do Teorema de BayesTeorema de Bayes para probabilidade:

Reconstrução da distribuição original

Reconstrução da distribuição original

Reconstrução da distribuição original

Média da função de distribuição para cada Xi:

Após a diferenciação:

Com uma amostragem suficientemente grande, espera-se que f’x seja bastante aproximado a função real fx.

Reconstrução da distribuição original

Portanto, nós conhecemos somente fy, não fx. Assim, usaremos uma distribuição uniforme como estimativa inicial para fºx e refinaremos iterativamente aplicando o seguinte algoritmo:

Critério de parada

O critério de parada da iteração é satisfeito quando a distribuição reconstruída é estatisticamente igual à distribuição original. Digamos:

Avaliação

Distorção de valor gaussiana:

Avaliação

Distorção de valor linear:

A inserção de ruídos na base de dados pode trazer efeitos indesejados[Zahidul]

Interferência na variância (Tipo A)

Interferências nas correlações entre atributos confidenciais (Tipo B)

Interferências nas correlações entre atributos confidenciais e não confidenciais (Tipo C)

A seguinte solução propõe uma forma de alterar os dados sem criar as interferências referidas acima.

A avaliação é feita sobre árvores de decisão.

Classificação dos dados na árvorede decisão

Uma árvore de decisão é um discriminador de classes que recursivamente particiona o conjunto de dados até que cada partição consista inteira ou dominantemente de dados da mesma classe.

Cada nó não folha contém um split-point que testa um ou mais atributos e determina como os dados serão particionados.

Classificação dos dados na árvorede decisão

Uma árvore de decisão pode ser usada para delinear o perfil de futuros aplicadores classificando-os segundo sua categoria de risco.

Caracterização dos dados utilizados

Neste estudo foi utilizado uma base de dados do Wisconsin Breast Cancer (WBC).

O conjunto de dados possui 10 atributos numéricos cujo domínio é são os inteiros entre 1 e 10 e um atributo de classe ‘2’ ou ‘4’.

O gerador da árvore foi o Quinlan’s C5 nos 349 casos da base de dados do WBC

Árvore gerada com os dados não modificados

Passos para modificar os dados

1 – Adicionar ruído aos atributos influentes (LINAs) de cada folha da árvore através da técnica Leaf Influential Attribute Perturbation Technique(LINAPT).2 – Adicionar ruído aos atributos não influentes (LIAs) de cada folha da árvore através da técnica (LINAPT).3 – Adicionar ruídos aos atributos de classe através da técnica Randon Perturbation Technique (RPT).

Definições

A técnica considera que todos os atributos são sensíveis para evitar a identificação de algum registro particular.Divide-se os atributos numéricos em dois tipos: LIAs e LINAsAtributos numéricos variam de 1-10Atributos de classe podem ser 2 ou 4.

Passo 1

Para cada folha da árvore identifica-se os LINAs da folha. Seja A um LINA. A’ = A + εε é um ruído discreto com média μ e σ². A distribuição é escolhida de acordo com a aplicação.A’ continua pertencendo ao intervalo definido pelo valor condicional.

Passo 2

Para cada folha da árvore identifica-se os LIAs da folha. Seja B um LIA. B’ = B + εε é um ruído discreto com média μ e σ². A distribuição é escolhida de acordo com a aplicação.μ = 0 e σ = 27.6% do atributo do valor em questão.

Passo 3

Para cada folha da árvore identifica-se os campos de classe. Verifica-se se os campos são heterogêneos. Converte-se os n casos que pertencem a minoria para a maioria.Converte-se aleatoriamente n casos da maioria para a minoria. σ = 27.6% do atributo do valor em questão.

ResultadosEm 7 dos 15 experimentos realizados as árvores lógicas com dados perturbados foram exatamente iguais à original.Em 5 casos alguns dados diferiram porém a extrutura da árvore não foi alterada.

Resultados

Em dois casos a extrutura da árvore foi ligeiramente modificada.

Conclusões

É possível manter a privacidade de um banco de dados alterando-se aleatóriamente os campos sem perder dados estatísticos e interrelacionados.

Existem ainda muitas outras técnicas.

Lattice Model

Cell Restriction

Random Sample Queries

Systematic rounding and systematic ranges

Dynamic Databases

Bibliografia

[Agrawal] – “Privacy-preserving Data Mining”

[Fonseca] – “Curso de estatística”

[Denning] – “Inference controls for Statistical Databases”

[Crannor] – “Beyond Concern: Undertanding Internet User”