Avaliação do Conhecimento Descoberto Avaliação do Conhecimento Descoberto Fábio Moura orientado...
-
Upload
marcela-bermudes -
Category
Documents
-
view
218 -
download
3
Transcript of Avaliação do Conhecimento Descoberto Avaliação do Conhecimento Descoberto Fábio Moura orientado...
Avaliação do Conhecimento DescobertoAvaliação do Conhecimento Descoberto
Fábio Mouraorientado por
Francisco Carvalho
Avaliação do Conhecimento DescobertoAvaliação do Conhecimento Descoberto Motivação Treinamento e teste Estimando performance
• Cross-validation• Leave-one-out cross-
validation• Bootstrap
Comparando esquemas de aprendizado
Predizendo probabilidades Contabilizando o custo de
previsões erradas• Lift charts• ROC curves
Avaliando previsões numéricas
Medidas de avaliação do conhecimento descoberto
O princípio MDL
MotivaçãoMotivação Avaliação: a chave para o sucesso em data mining Qual o grau de confiabilidade do modelo aprendido? Performance no conjunto de treinamento não é um
bom indicador de performance em dados futuros Solução simples
• Utilize um amplo conjunto de dados para treinamento e teste
Quando dados não são facilmente disponíveis• Utilização de técnicas mais sofisticadas• Ex.: dados sobre consumo de energia dos últimos 15 anos
Tópicos em Avaliação do Conhecimento Tópicos em Avaliação do Conhecimento DescobertoDescoberto
Testes estatísticos para determinar a performance de diferentes esquemas de aprendizado de máquina
Escolha da medida de performance• Número de classificações corretas• Precisão da previsão de probabilidade em classes• Erros em previsões numéricas
Custos associados a diferentes tipos de erros• Muitas aplicações práticas envolvem custos
Avaliação do Conhecimento DescobertoAvaliação do Conhecimento Descoberto Motivação Treinamento e teste Estimando performance
• Cross-validation• Leave-one-out cross-
validation• Bootstrap
Comparando esquemas de aprendizado
Predizendo probabilidades Contabilizando o custo de
previsões erradas• Lift charts• ROC curves
Avaliando previsões numéricas
Medidas de avaliação do conhecimento descoberto
O princípio MDL
Treinamento e TesteTreinamento e Teste Medida natural para classificação de problemas:
taxa de erro• Acerto: instância da classe é prevista corretamente• Erro: instância da classe é prevista incorretamente• Taxa de erro: proporção dos erros sobre todo o conjunto de
instâncias Erro de resubstituição: taxa de erro obtida do
conjunto de treinamento Erro de resubstituição é (esperançosamente)
otimista !
Treinamento e TesteTreinamento e Teste Conjunto de teste: conjunto de instâncias
independentes que não são utilizadas na formação do classificador• Suposição: tanto o conjunto de dados para treinamento
como o conjunto de dados para teste são exemplos representativos do problema em questão
Dados de teste e treinamento podem ser naturalmente diferentes• Exemplo: classificadores construidos utilizando-se dados de
duas cidades diferentes A e B Estimar a performance de um classificador da cidade A e testá-
lo utilizando-se dados da cidade B
Observações sobre Ajuste de ParâmetrosObservações sobre Ajuste de Parâmetros É importante que os dados de teste não sejam
utilizados para criação do classificador Alguns esquemas de aprendizado operam em dois
estágios• Estágio 1: construção da estrutura básica• Estágio 2: otimização dos parâmetros
Os dados de teste não podem ser utilizados para ajuste dos parâmetros
Procedimentos apropriados utilizam três conjuntos: dados de treinamento, validação e teste• Dados de validação são utilizados para otimização dos
parâmetros
Aproveitando Melhor os DadosAproveitando Melhor os Dados Uma vez que a avaliação está completa, todos os
dados podem ser utilizados na construção do classificador final
Geralmente, quanto maior o conjunto de dados para treinamento, melhor o classificador
Quanto maior o conjunto de dados para teste, mais precisa a estimativa de erro
Procedimento Holdout: método para divisão dos dados originais nos conjuntos de treinamento e teste• Dilema: idealmente queremos os dois, um grande conjunto
de dados para treinamento e para teste
Avaliação do Conhecimento DescobertoAvaliação do Conhecimento Descoberto Motivação Treinamento e teste Estimando performance
• Cross-validation• Leave-one-out cross-
validation• Bootstrap
Comparando esquemas de aprendizado
Predizendo probabilidades Contabilizando o custo de
previsões erradas• Lift charts• ROC curves
Avaliando previsões numéricas
Medidas de avaliação do conhecimento descoberto
O princípio MDL
Estimando PerformanceEstimando Performance Assuma uma taxa de erro estimada de 25%. O quão
perto esta taxa está da taxa de erro real?• Depende do volume de dados para teste
Previsão é como jogar uma moeda viciada• “Cara” é um “acerto”, “coroa” é um “erro”
Em estatística, uma sucessão de eventos independentes como este é chamado de um processo Bernoulli• A teoria estatística nos provê com intervalos de confidência
que mostra a proporção em que a verdade se fundamenta
Intervalos de ConfidênciaIntervalos de Confidência Nós podemos dizer: p possui um certo intervalo
especificado com uma certa confidência especificada
Exemplo: S=750 acertos em N=1000 tentativas• Taxa de acerto estimada: 75%• O quão próximo esta taxa está da verdadeira taxa de acerto
p? Resposta: com 95% de confidência p [73.3, 76.8]
Outro exemplo: S=75 e N=100• Taxa de acerto estimada: 75%• Com 95% de confidência p [70.0, 81.0]
Média e VariânciaMédia e Variância Média e variância para um teste Bernoulli: p, p(1-p) Taxa de acerto esperada f =S/N Média e variância para f: p, p(1-p)/N Para um N suficientemente grande, f segue uma
distribuição normal c% intervalo de confidência [-z X z] para uma
variável aleatória com média 0 é dada por: Pr[-z X z] = c
Dando uma distribuição simétrica: Pr[-z X z] = 1 - (2*Pr[X z])
Limites de ConfidênciaLimites de Confidência Limites de confidência para uma distribuição normal
com média 0 e variância 1:Pr[X >= z] z
0,1% 3,090,5% 2,58
1% 2,335% 1,65
10% 1,2820% 0,8440% 0,25
Assim: Pr[-1,65 X 1,65] = 90%
Para utilizar isto, temos que reduzir nossa variável aleatória f para que tenha média 0 e variância unitária
Transformando Transformando ff Valor transformado para f:
(i.e. subtração da média e divisão pelo desvio padrão)
Equação resultante:
Resolvida para p:
Npppf
/)1(
czNpp
pfz
/)1(
Pr
Nz
Nz
Nf
Nfz
Nzfp
2
2
222
1/42
ExemplosExemplos f=75%, N=1000, c=80% (então z=1.28):
p [0.732, 0.767] f=75%, N=100, c=80% (então z=1.28):
p [0.691, 0.801] Note que a suposição de distribuição normal
somente é válida para um N “grande” (i.e. N > 100) f=75%, N=10, c=80% (então z=1.28):
p [0.549, 0.881]
Estimativa Estimativa HoldoutHoldout
O que devemos fazer se a quantidade de dados é limitada?
O método holdout reserva uma certa quantidade de dados para teste e utiliza o restante para treinamento• Normalmente: um terço para teste, o restante para
treinamento Problema: os exemplos podem não ser representativos
• Exemplo: classe faltando nos dados de teste A versão avançada utiliza estratificação
• Garante que cada classe esteja representada com aproximadamente a mesma proporção em ambos conjuntos
Método Método HoldoutHoldout Repetitivo Repetitivo A estimativa holdout pode se tornar mais confiável
se repetirmos o processo com diferentes subexemplos• Em cada iteração, uma certa proporção é aleatoriamente
selecionada para treinamento (possivelmente com estratificação)
• Um média das taxas de erro nas diferentes iterações é calculada para produção de uma taxa de erro geral
Continua não sendo ótimo: diferentes conjuntos de teste se sobrepõem• Podemos prevenir sobreposição?
Cross-validationCross-validation Cross-validation evita sobreposição de conjuntos de
teste• Primeiro passo: os dados são divididos em k subconjuntos
de tamanho igual• Segundo passo: cada subconjunto, em fila, é utilizado para
teste e o restante para treinamento Este processo é chamado k-fold cross-validation Geralmente os subconjuntos são estratificados antes
que a validação cruzada seja realizada Calcula-se a média dos erros estimados a fim de se
produzir uma estimativa de erro geral
Cross-validationCross-validation Método padrão de avaliação: ten-fold cross-
validation estratificado Por que dez? Experimentos extensivos mostraram
que esta é a melhor escolha a fim de se conseguir uma estimativa precisa• Também existem algumas evidências teóricas
Estratificação reduz a variação da estimativa Ainda melhor: cross-validation estratificado
repetitivo• Ten-fold cross-validation é repetido dez vezes e a média dos
resultados é calculada
Leave-one-out Cross-validationLeave-one-out Cross-validation É uma forma particular de cross-validation:
• O número de “folds” é fixado com o número de instâncias para treinamento
• Um classificador tem que ser construído n vezes, onde n é o número de instâncias para treinamento
Faz uso máximo dos dados Não envolve o uso de subexemplos aleatórios Computacionalmente muito caro
LOO-CV e EstratificaçãoLOO-CV e Estratificação Outra desvantagem do LOO-CV: não é possível
estratificação• Há apenas uma instância no conjunto de teste
Exemplo extremo: conjunto de dados completamente aleatório com duas classes em igual proporção• Melhor indutor que prevê a classe majoritária (resulta em
50%)• A estimativa LOO-CV para este indutor seria de uma taxa de
erro de 100%
BootstrapBootstrap CV utiliza exemplos sem substituição
• A mesma instância, uma vez selecionada, não pode ser selecionada novamente para um conjunto de treinamento/teste em particular
O bootstrap é um método de estimativa que utiliza exemplos com substituição para formar o conjunto de treinamento• Um conjunto de dados com n instâncias é utilizado n vezes a
fim de formar um novo conjunto de dados com n instâncias• Estes dados são utilizados como conjunto de treinamento• As instâncias do conjunto de dados original que não ocorrem
no novo conjunto de treinamento são utilizadas para teste
0.632 Bootstrap0.632 Bootstrap Este método também é conhecido como 0.632
bootstrap• Uma particular instância tem a probabilidade de 1-1/n de
não ser utilizada• Assim, sua probabilidade de terminar nos dados de teste é:
• Isto significa que o conjunto de dados para treinamento irá conter aproximadamente 63.2% das instâncias
368.011 1
e
n
n
Estimando Erro Com o BootstrapEstimando Erro Com o Bootstrap O erro estimado nos dados de teste será muito
pessimista• Ele contém apenas ~63% das instâncias
Assim, ele é combinado com o erro de resubstituição:
O erro de resubstituição tem menor peso que o erro nos dados de teste
O processo é repetido várias vezes, com diferentes exemplos gerados, toma-se a média dos resultados
instancestraininginstancestest 368.0632.0 eeerr
Observações sobre BootstrapObservações sobre Bootstrap É provavelmente a melhor maneira para estimativa
de performance em conjuntos de dados muito pequenos
Entretanto, possui alguns problemas• Considerando o conjunto de dados aleatório anterior• Um perfeito memorizador alcançará 0% de erro de
resubstituição e ~50% de erro nos dados de teste• Bootstrap estimará para este classificador:
err = 0.632 x 50% + 0.368 x 0% = 31.6%• Verdadeira taxa de erro esperada: 50%
Avaliação do Conhecimento DescobertoAvaliação do Conhecimento Descoberto Motivação Treinamento e teste Estimando performance
• Cross-validation• Leave-one-out cross-
validation• Bootstrap
Comparando esquemas de aprendizado
Predizendo probabilidades Contabilizando o custo de
previsões erradas• Lift charts• ROC curves
Avaliando previsões numéricas
Medidas de avaliação do conhecimento descoberto
O princípio MDL
Comparando Esquemas de AprendizadoComparando Esquemas de Aprendizado Situação freqüente: queremos saber entre dois
esquemas de aprendizado qual o de melhor performance
Nota: isto é dependente do domínio Caminho óbvio: compare estimativas 10-fold CV Problema: variação na estimativa A variação pode ser reduzida utilizando-se CV
repetitivo Entretanto, ainda não sabemos se os resultados são
confiáveis
Testes de SignificânciaTestes de Significância Testes de significância nos diz o quão confidentes
podemos ser que realmente existe uma diferença Hipótese nula: não há diferença “real” Hipótese alternativa: há uma diferença Um teste de significância mede quanta evidência
existe em favor de rejeitar-se a hipótese nula Se estivermos utilizando 10-fold CV 10 vezes Então nós queremos saber se as duas médias das
estimativas do 10 CV são significantemente diferentes
Paired t-testPaired t-test Student´s t-test nos diz se a média de dois exemplos
são significantemente diferentes Os exemplos individuais são tomados do conjunto de
todos as estimativas cross-validation possíveis Nós utilizamos o paired t-test porque os exemplos
individuais são casados• O mesmo CV é aplicado duas vezes, uma para cada
esquema Fazendo x1, x2, ..., xk e y1, y2, ..., yk serem os 2k
exemplos para um k ten-fold CV
Distribuição das MédiasDistribuição das Médias Sendo mx e my as médias dos respectivos exemplos Se existirem exemplos suficientes, a média de um
conjunto independente de exemplos é normalmente distribuída
As variâncias estimadas das médias são x2/k e y
2/k Se x e y são as verdadeiras médias então
são aproximações normalmente distribuídas com média 0 e variância unitária
k
m
k
m
y
yy
x
xx
// 22
Distribuição Distribuição StudentStudent
Com exemplos pequenos (k < 100) a média segue a distribuição student com k -1 graus de liberdade
Limites de confidência para 9 graus de liberdade (esquerda), comparado a limites para uma distribuição normal (direita):
Pr[X>=z] z Pr[X>=z] z0,1% 4,30 0,1% 3,090,5% 3,25 0,5% 2,58
1% 2,82 1% 2,335% 1,83 5% 1,65
10% 1,38 10% 1,2820% 0,88 20% 0,84
Distribuição das DiferençasDistribuição das Diferenças Seja md = mx - my A diferença das médias (md) também tem uma
distribuição student com k-1 graus de liberdade Seja d
2/k a variância da diferença A versão padronizada de md é chamada t-statistic:
Nós utilizamos t para realizar o t-teste
k
mtd
d
/2
Realizando o TesteRealizando o Teste Fixe um nível de significância
• Se a diferença está significantemente no nível % há uma chance de (100 - )% de que realmente exista uma diferença
Divida o nível de significância por dois já que o teste é “two-tailed”• A verdadeira diferença pode ser positiva ou negativa
Verifique o valor de z que corresponde a /2 Se t -z ou t z então a diferença é significante
• A hipótese nula pode ser rejeitada
ObservaçõesObservações Se as CV estimadas forem de diferentes sorteios,
não há mais “casamento” Talvez nós ainda usemos k-fold CV para um
esquema e j-fold CV para outro
Então devemos utilizar o t-teste unpaired com min(k,j)-1 graus de liberdade
A t-statistic se torna:
lk
mmt
yx
yx
22
Notas sobre a Interpretação do Notas sobre a Interpretação do ResultadoResultado
Toda estimativa cross-validation é baseada no mesmo conjunto de dados
Portanto, o teste apenas nos diz quando um completo k-fold CV para este conjunto de dados irá mostrar uma diferença• Um k-fold CV completo irá gerar todas as possíveis partições
dos dados em k conjuntos e calcular a média dos resultados Idealmente, nós queremos conjuntos de dados de
exemplo diferentes para cada estimativa k-fold CV usando o teste para julgar a performance através de diferentes conjuntos de treinamento
Avaliação do Conhecimento DescobertoAvaliação do Conhecimento Descoberto Motivação Treinamento e teste Estimando performance
• Cross-validation• Leave-one-out cross-
validation• Bootstrap
Comparando esquemas de aprendizado
Predizendo probabilidades Contabilizando o custo de
previsões erradas• Lift charts• ROC curves
Avaliando previsões numéricas
Medidas de avaliação do conhecimento descoberto
O princípio MDL
Predizendo ProbabilidadesPredizendo Probabilidades Medida de performance: taxa de acerto Também chamada função de perda 0-1:
Muitos classificadores produzem classes de probabilidades
Dependendo da aplicação, nós podemos querer checar a precisão das estimativas de probabilidade
Perda 0-1 não é o modelo correto a ser utilizado nestes casos
i
correta é predição a se0
incorreta é predição a se1
Função de Perda QuadráticaFunção de Perda Quadrática
p1, ..., pk são probabilidades estimadas para uma instância
Seja c o índice da classe atual da instância a1, ..., ak = 0, exceto para ac, que é 1 A “perda quadrática” é:
Justificativa:
222 1 ccj
jj
jj ppapE
jjjjj
jjj aEapEpEapE 222 2)(
j j
jjjjjjjj pppppppp **2***2 12
Função de Perda InformacionalFunção de Perda Informacional A “informational loss function” é –log(pc), onde c é o
índice da classe atual da instância Número de bits necessários para comunicar a classe atual
• Ex.: “cara ou coroa” - log2 1/2 = 1 Sejam p1
*, ..., pk* as probabilidades verdadeiras das
classes Então o valor esperado para a “função de perda” é:
Justificativa: minimizado para pj = pj*
Dificuldade: problema da freqüência zero• Se a probabilidade é zero, o valor da função é -
kk pppp 2*
12*1 loglog
ObservaçõesObservações Qual “função de perda” deveríamos escolher?
• A “quadratic loss function” leva em conta todas as probabilidades de classes estimadas para uma instância
• A “informational loss” foca somente na probabilidade estimada para a classe atual
• A “quadratic loss” é restringida por Nunca poderá exceder a 2
• A “informational loss” poderã ser infinita A “informational loss” está relacionada ao princípio
MDL
j
jp21
Avaliação do Conhecimento DescobertoAvaliação do Conhecimento Descoberto Motivação Treinamento e teste Estimando performance
• Cross-validation• Leave-one-out cross-
validation• Bootstrap
Comparando esquemas de aprendizado
Predizendo probabilidades Contabilizando o custo de
previsões erradas• Lift charts• ROC curves
Avaliando previsões numéricas
Medidas de avaliação do conhecimento descoberto
O princípio MDL
Contabilizando os CustosContabilizando os Custos Na prática, diferentes tipos de erros de classificação
geralmente incorrem em diferentes custos Exemplos:
• Decisões de empréstimo• Detecção de vazamento de óleo• Diagnóstico de falha• Cartas promocionais
enviar carta p/ família q ñ responderá x ñ enviar carta p/ família q responderá
Mantendo Custos em ContaMantendo Custos em Conta A matriz “confusão”:
Há muitos outros tipos de custos• Custos de coleta de dados para treinamento
Predicted classYes No
Classe Yes True FalseAtual positive negative
No False Truepositive negative
Lift ChartsLift Charts Na prática, custos raramente são desconhecidos Decisões são tomadas geralmente pela comparação
de cenários possíveis Exemplo: cartas promocionais
• Situação 1: classificador prevê que 0,1% de todos as famílias irão responder = 1.000 respostas
• Situação 2: classificador prevê que 0,4% das 10.000 famílias mais promissoras irão responder = 400 respostas
• Situação 3: classificador prevê que 0,2% de 400.000 famílias irão responder = 800 respostas
Um lift chart permite uma comparação visual
Gerando um Lift ChartGerando um Lift Chart Instâncias são classificadas de acordo com suas
probabilidades previstas de serem um “true positive”:
Em um lift chart, o eixo x é o tamanho do exemplo e o eixo y é o número de “true positives”
Rank Predicted probability Actual class1 0,95 Yes2 0,93 Yes3 0,93 No4 0,88 Yes... ... ...
Exemplo de um Lift ChartExemplo de um Lift Chart
ROC CurvesROC Curves Curvas ROC são similares a lifit charts
• “ROC” vem de “receiver operating characteristic”• Utiliza um sinal de detecção para mostrar o tradeoff entre a
taxa de acerto (hit rate) e a taxa de alarme falso (false alarm rate) acima do canal de ruído (noisy channel)
Diferenças do lift chart:• O eixo y mostra o percentual de true positives em um
exemplo (em vez do valor absoluto)• O eixo x mostra o percentual de false positives em um
exemplo (em vez do tamanho do exemplo)
Exemplo de uma ROC CurveExemplo de uma ROC Curve
Cross-validation e Roc CurvesCross-validation e Roc Curves Método simples para criar uma curva Roc utilizando
cross-validation:• Coletar probabilidades de instâncias em conjuntos de teste• Classificar as instâncias de acordo com as probabilidades
Este método é implementado no WEKA Entretanto, esta é apenas uma possibilidade
• O método descrito no livro gera uma curva ROC para cada conjunto e calcula a média entre eles
Roc Curves para Dois EsquemasRoc Curves para Dois Esquemas
Convex HullConvex Hull Dados dois esquemas de aprendizado, podemos
alcançar qualquer ponto no convex hull Taxas TP e FP para o esquema 1: t1 e f1 Taxas TP e FP para o esquema 2: t2 e f2 Se o esquema 1 é utilizado para prever 100 x q%
dos casos e o esquema 2 para o restante, então tomamos:• Taxa TP para o esquema combinado: q x t1 + (1-q) x t2
• Taxa FP para o esquema combinado: q x f1 + (1-q) x f2
Aprendizado Sensível ao CustoAprendizado Sensível ao Custo A maioria dos esquemas de aprendizado não
realizam aprendizado sensível ao custo• Eles geram o mesmo classificador não importando qual o
custo associado a diferentes classes• Exemplo: aprendizado de árvore de decisão padrão
Métodos simples para aprendizado sensível ao custo:• Reutilização de instâncias de acordo com os custos• Utilização de pesos para instâncias de acordo com os custos
Alguns esquemas são sensíveis ao custo de forma inerente, ex. naive Bayes
Medidas de Retorno da InformaçãoMedidas de Retorno da Informação Percentual dos documentos retornados que são
relevantes: precision = TP/TP+FP Percentual dos documentos relevantes que são
retornados: recall = TP/TP+FN A curva precision/recall tem a forma hiperbólica Sumário das medidas: precisão média de 20%, 50%
e 80% recall (three-point average recall) F-measure = (2 x recall x precision)/(recall +
precision)
Sumário das MedidasSumário das Medidas
Domain Plot ExplanationLift chart Marketing TP TP
Subset (TP+FP)/size (TP+FP+TN+FN)
ROC curve Communications TP rate TP/(TP+FN)FP rate FP/(FP+TN)
Recall- Information Recall TP/(TP+FN)precision retrieval Precision TP/(TP+FP)curve
Avaliação do Conhecimento DescobertoAvaliação do Conhecimento Descoberto Motivação Treinamento e teste Estimando performance
• Cross-validation• Leave-one-out cross-
validation• Bootstrap
Comparando esquemas de aprendizado
Predizendo probabilidades Contabilizando o custo de
previsões erradas• Lift charts• ROC curves
Avaliando previsões numéricas
Medidas de avaliação do conhecimento descoberto
O princípio MDL
Avaliando Previsões NuméricasAvaliando Previsões Numéricas Algumas estratégias: conjunto de teste
independente, cross-validation, testes de significância, etc.
Diferença: medidas de erro Valores alvo atuais: a1, a2, ..., an Valores alvo previstos: p1, p2, ..., pn Medida mais popular: erro do quadrado da média
(mean-squared error)
• Fácil para manipulação matemática
n
apap nn22
11
Outras MedidasOutras Medidas A raiz do erro do quadrado da média:
O erro médio absoluto é menos sensível a outliers que o erro do quadrado da média:
Às vezes valores de erros relativos são mais apropriados que valores absolutos• 10% corresponde a um erro de 50 quando prevendo 500• 10% corresponde a um erro de 0,2 quando prevendo 2
n
apap nn22
11
napap nn 11
Aprimoramento da MédiaAprimoramento da Média Sempre queremos saber quanto o esquema é
aprimorado simplesmente prevendo a média O erro quadrado relativo é (ā é a média):
O erro absoluto relativo é:
22
1
2211
n
nn
aaaaapap
n
nn
aaaaapap
1
11
O Coeficiente de CorrelaçãoO Coeficiente de Correlação Mede a correlação estatística entre os valores
previstos e os valores atuais
Escala independente, entre –1 e +1 Boa performance leva a grandes valores
AP
PA
SSS
1
))((
n
aappS i
ii
PA 1
)( 2
n
ppS i
i
P 1
)( 2
n
aaS i
i
A
Qual a melhor medida?Qual a melhor medida? Melhor verificar todas elas Geralmente não importa Exemplo:
A B C DRaiz do erro da média quadrada 67,8 91,7 63,3 57,4Erro da média absoluta 41,3 38,5 33,4 29,2Raiz do erro relativo quadrado 42,2% 57,2% 39,4% 35,8%Erro relativo absoluto 43,1% 40,1% 34,8% 30,4%Coeficiente de correlação 0,88 0,88 0,89 0,91
Avaliação do Conhecimento DescobertoAvaliação do Conhecimento Descoberto Motivação Treinamento e teste Estimando performance
• Cross-validation• Leave-one-out cross-
validation• Bootstrap
Comparando esquemas de aprendizado
Predizendo probabilidades Contabilizando o custo de
previsões erradas• Lift charts• ROC curves
Avaliando previsões numéricas
Medidas de avaliação do conhecimento descoberto
O princípio MDL
Medidas de Avaliação do Conhecimento Medidas de Avaliação do Conhecimento DescobertoDescoberto
Piatetsky-Shapiro’s Rule-Interest Function• É usada para quantificar a correlação entre atributos em um
classificador de regras simples• Uma regra de classificação simples é aquela em que os
lados esquerdo e direito de uma implicação lógica (X Y) corresponde a um atributo simples
• Quando RI = 0, então X e Y são estatisticamente independentes e a regra não é interessante
• Quando RI > 0 (RI < 0), então X é positivamente (negativamente) correlacionado a Y
NYX
YXRI
Medidas de Avaliação do Conhecimento Medidas de Avaliação do Conhecimento DescobertoDescoberto
Smyth and Goodman’s J-Measure• É utilizado para encontrar as melhores regras relacionando
atributos de valores discretos Major and Mangano’s Rule Refinement
• É uma estratégia usada para induzir regras de classificação interessantes de um banco de dados de regras de classificação
• Consiste em três fases: identificar regras potencialmente interessantes, identificar regras tecnicamente interessantes, e remover regras que não sejam genuinamente interessantes
Agrawal and Srikant’s Itemset Measures• Utilizada para identificar regras de classificação que ocorrem
com freqüência de conjuntos de itens em grandes bancos de dados
Medidas de Avaliação do Conhecimento Medidas de Avaliação do Conhecimento DescobertoDescoberto
Klemettinen et al. Rule Templates• Utilizada para descrever um padrão para os atributos que
podem aparecer no lado esquerdo ou direito em uma regra de associação
Matheus and Piatetsky-Shapiro’s Projected Savings• Avalia o impacto financeiro dos custos de desvios de valores
esperados Hamilton and Fudger’s I-Measures
• Usadas para quantificar a significância do conhecimento descoberto, apresentadas na forma de relações generalizadas ou sumários
• Baseada na estrutura das hierarquias conceituais associadas aos atributos na relação original não generalizada
Medidas de Avaliação do Conhecimento Medidas de Avaliação do Conhecimento DescobertoDescoberto
Silbershatz and Tuzhilin’s Interestingness• Determina a extensão em que uma crença “suave” é mudada
como resultado da descoberta de uma nova evidência Kamber and Shinghal’s Interestingness
• Determina o nível de interesse de uma regra de classificação baseada na necessidade e suficiência
Hamilton et al. Credibility• Determina a extensão com que um classificador provê decisões
para todos ou quase todos valores possíveis dos atributos de condição, baseada em evidência adequadamente suportada
Liu et al. General Impressions• Usada para avalia a importância de regras de classificação pela
comparação das regras descobertas com uma descrição aproximada ou vaga do que é considerado ser interessante
Medidas de Avaliação do Conhecimento Medidas de Avaliação do Conhecimento DescobertoDescoberto
Gago and Bento’s Distance Metric• Mede a distância entre duas regras e é usada para determinar
as regras que provêm a mais alta cobertura para os dados fornecidos
Freita’s Surprisingness• Medida que determina o interesse do conhecimento descoberto
via detecção explícita de ocorrências do paradoxo de Simpson Gray and Orlowska’s Interestingness
• Usada para avaliar o poder de associações entre conjuntos de intens em transações a varejo (i.e., regras de associação)
Dong and Li’s Interestingness• Usada para avaliar a importância de uma regra de associação
por considerar sua “não expectativa” em termos de outras regras de associação em sua vizinhança
Medidas de Avaliação do Conhecimento Medidas de Avaliação do Conhecimento DescobertoDescoberto
Liu et al. Reliable Exceptions• Uma exceção confiável é uma regra frágil que tenha
suporte relativamente pequeno e confidência relativamente alta
Zhong et al. Peculiarity• Usada para determinar a extensão com que um objeto de
dado difere de outros objetos de dado similares
Avaliação do Conhecimento DescobertoAvaliação do Conhecimento Descoberto Motivação Treinamento e teste Estimando performance
• Cross-validation• Leave-one-out cross-
validation• Bootstrap
Comparando esquemas de aprendizado
Predizendo probabilidades Contabilizando o custo de
previsões erradas• Lift charts• ROC curves
Avaliando previsões numéricas
Medidas de avaliação do conhecimento descoberto
O princípio MDL
O Princípio MDLO Princípio MDL MDL se origina de minimum description length
(mínimo tamanho da descrição) O tamanho da descrição é definido como:
espaço necessário para descrever a teoria+
espaço necessário para descrever os erros da teoria Em nosso caso a teoria é o classificador e os erros
da teoria são os erros nos dados de treinamento Alvo: queremos classificar com o mínimo DL Princípio MDL é um critério para seleção do modelo
Critérios para Seleção do ModeloCritérios para Seleção do Modelo O critério para seleção do modelo tenta encontrar
um bom compromisso entre:• A complexidade de um modelo• Sua precisão de predição nos dados de treinamento
Conclusão: um bom modelo é um modelo simples que alcança alta precisão nos dados fornecidos
Também conhecido como Occam’s Razor: a melhor teoria é a menor delas que descreve todos os fatos
Elegância x ErrosElegância x Erros Teoria 1: muito simples, teoria elegante que explica
a maioria dos dados perfeitamente Teoria 2: uma teoria significantemente mais
complexa que reproduz os dados sem erros A teoria 1 é provavelmente a preferida Exemplo clássico: as três leis de Kepler no
movimento planetário• Menos precisa que o último refinamento de Copérnico da
teoria Ptolemaica de epicicles
ObservaçõesObservações Vantagem: faz uso total dos dados de treinamento
quando selecionando um modelo Desvantagem 1: esquema de codificação
apropriado/ probabilidades prévias para as teorias são cruciais
Desvantagem 2: não há garantia de que a teoria MDL é aquela que minimiza os erros esperados
Nota: Occam’s Razor é um axioma Princípio de Epicuro de múltiplas explicações: pegue
todas as teorias que são consistentes com os dados