Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3...

52
Aluizio Fausto Ribeiro Araújo Universidade Federal de Pernambuco Centro de Informática Máquinas de Vetores de Suporte Supprot Vector Machine

Transcript of Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3...

Page 1: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

Aluizio Fausto Ribeiro Araújo

Universidade Federal de Pernambuco

Centro de Informática

Máquinas de Vetores de SuporteSupprot Vector Machine

Page 2: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

2

1. Introdução2. Classificadores Binários3. AprendizagemEstatística4. SVM comMargens Rígidas5. SVM comMargens Rígidas: Hiperplano Ótimo6. SVM com Margens Rígidas: Método de Multiplicadores de

Lagrange.7. SVM comMargens Rígidas: Padrões Não-linearmente Separáveis8. SVM Separando Padrões Não-linearmente Separáveis9. SVM e a Função Kernel10. Aplicações11. Discussão

Conteúdo

Page 3: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

3

Introdução

- As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são baseadas na Teoria de AprendizagemEstatística (TAE) proposta porVapnik e Chernovemkis nas décadas de 1960 e 1970 (Vapnik, 1995).

- A Teoria de AprendizagemEstatística visa encontrar condiçõesmatemáticas para escolha de uma função que separe dados a seremaprendidos emproblemas de categorização. Esta separação deveconsiderar o menor erro de treinamento ao mesmo tempo que devemaximizar a capacidade de generalização de umclassificador (paraaprendizagemsupervisionada).

Page 4: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

4

Introdução

- Método para escolha de função de separação de dados emcategorias: Minimizar o erro de treinamento e acomplexidade da função selecionada.

- O nível da complexidade está associado coma capacidadede generalização.

- O conceito dimensão Vapnik-Chervonenkis (VC) é útilpara obter as condições mencionadas acima. Ela mede acomplexidade das hipóteses (funções) consideradas por umalgoritmo de busca por soluções.

Page 5: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

5

Introdução

- Características favoráveis ao uso de SVMs:

i. Capacidade de generalização alta, evitando sobretreinamento(overfitting).

ii. Robustez para categorização de dados comdimensões altas,que tendema ser sobretreinados emoutros classificadorespois muitas micro-características são pouco discriminantes.

iii. Convexidade da função objetivo pois esta é uma funçãoquadrática comapenas umótimo global.

iv. Teoria bemestabelecida nas áreas de matemática e estatística.

Page 6: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

6

Introdução

- Treinamento: Supervisionado ou Não-supervisionado que nãotemconhecimento prévio sobre o domínio do problema.

- Classes de problemas emque são comumente usadas SVM:i. Classificação de padrões;ii. Regressão;iii. Reconhecimento de padrões;iv. Agrupamento.

- Exemplos de áreas de aplicação (dimensão alta dos dados):- Detecção de faces emimagens; Categorização de textos;

Regressão linear; Bioinformática.

Page 7: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

7

Classificadores BináriosFunção de Separação

• A tarefa a ser realizada:- Um conjunto de dados finito {(x, y)} onde x representa uma

entrada ey uma das duas classes à qual ela pode pertencer.

{0,1}, {-1,+1}, {o,x}, { ♦,o}...

• A solução:– Aprender uma função que baseada emum grupo de padrões de

treinamento (que pode ser muito pequeno), possa associardados não vistos anteriormente à classe correta.

Page 8: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

8

Classificadores BináriosFunção de Separação

• A abordagem clássica é tomar uma função, como umpolinômio, e ajustar seus parâmetros para separar os dados detreinamento colocando-os emuma das duas classes.

• No treinamento, aumentando o grau do polinômio é possívelreduzir o erro nos dados de treinamento.• Esta estratégia pode levar ao sobretreinamento (overfitting) implicando

embaixa capacidade de generalização.

Page 9: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

9

Classificadores BináriosFunção de Separação

• Procedimento alternativo:- Redução significativa do grau do polinômio.- Esta opção pode levar ao aumento do erro de classificação

para os dados de treinamento, ounderfitting.

Page 10: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

10

Aprendizagem EstatísticaMinimização do Risco Estrutural

• A teoria de AprendizagemEstatística visa determinar condiçõesmatemáticas para escolha de umclassificador comdesempenhodesejado para conjuntos de treinamento e teste.

• É sempre possível encontrar umpolinômio de alto grau que separeduas classes quaisquer.- Logo o risco empírico pode sempre ser minimizado para zero ao

custo de uma função de decisão muito complexa.- A distribuição dos dados de treinamento pode não ser tão

complexa mas, fatores como ruído podemfazer a distribuiçãoparecer mais complexa para a máquina de aprendizagem.

• A teoria da Minimização do Risco Estrutural (MRE) formaliza oconceito de controle de complexidade e minimização de riscoempírico.

Page 11: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

11

Aprendizagem EstatísticaMinimização do Risco Estrutural

• Se uma máquina de aprendizagem, como rede neural ou máquina devetor suporte, pretende minimizar o risco esperado, ela deveminimizar tanto o risco empírico quanto o termo de complexidade.

decomplexida de termo empírico risco esperado risco +≤

Page 12: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

12

Aprendizagem EstatísticaMinimização do Risco Empírico (treinamento)

• Critérios considerados para escolha de umclassificador (f):- Minimização do risco empírico, relativo a erro durante o

treinamento, no qual se considera:- O número de pares entrada-saída.

- A função de custo que relacione a previsão de saída comasaída desejada.

∑=

=n

iiemp yfc

nfR

1

)),((211

)( ix

Page 13: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

13

Aprendizagem EstatísticaMinimização do Risco Funcional (generalização)

• Critérios considerados para escolha de umclassificador (f):- Minimização do risco funcional, relativo a erro durante a

validação (generalização), no qual se considera:- Função de custo relacionando a previsão de saída coma saída

desejada.

- Distribuição de probabilidade dos pares.

∫= ),()),((21

)( ydPyfcfR xx

Page 14: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

14

Aprendizagem EstatísticaMinimização do Risco Funcional (generalização)

• Limites do risco funcional determinama escolha do classificador:

- Os limites do risco funcional para funções sinal (classe defunções aqui considerada) relacionamo número de exemplos detreinamento, o risco empírico para este conjunto e acomplexidade do espaço de hipóteses.- O risco funcional de uma função classificadora é minimizado se o

número de observações do conjunto de treinamento for suficientementegrande.

- A complexidade do espaço de hipóteses é medida através dadimensão Vapnik-Chervonenkis (VC).- O risco médio de uma função classificadora é minimizado se a

dimensão VC do conjunto destas funções for suficientementepequena.

Page 15: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

15

Aprendizagem EstatísticaDimensão-VC

• A complexidade de umgrupo de funções de decisão pode ser medidapor um valor h, chamado Dimensão-VC, que, avalia a quantidademáxima de pontos que podemser separados por este grupo defunções se todas as permutações de rótulos ocorrerem.

- Aqui trabalha-se comdicotomias: funções sinais que dividemoespaço de entradas emdois subconjuntos disjuntos.

- Valor alto de dimensão VC implica emgrande complexidade dasfunções de decisão. h=3

Page 16: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

16

Aprendizagem EstatísticaMinimização do Risco Estrutural

• A equação de delimitação pode ser re-escrita empregando adimensão-VC, isto é, usandoh.

- Probabilidade da equação abaixo ser verdadeira: 1-δ.

- O número de exemplos de treinamento én.

- O crescimento deδ acarreta o aumento do risco esperado.n

h

nh

fRfR emp4

ln12

ln][][

decomplexida de termo empírico risco esperado risco

δ−

++≤

+≤

Page 17: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

17

Aprendizagem EstatísticaMinimização do Risco Estrutural

R[f]

Termo de complexidade

Risco empírico

Dimensão-VC

Risco esperado

Page 18: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

18

Aprendizagem EstatísticaMargem de Separação

• A margemde separação de umclassificador é definida como a menordistância entre exemplos do conjunto de treinamento e o hiperplanoutilizado na separação destes dados emclasses.

Page 19: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

19

Aprendizagem EstatísticaMargem de Separação

• Podemexistir vários hiperplanos separando os dados corretamente,contudo existe ao menos ummelhor que os demais.• Pode-se notar que o hiperplano com maior margem de separação tem melhor

capacidade de generalização pois diminui a possibilidade de erro.•Quanto maior a margemde umclassificador menorserá sua dimensão VC(prova está emteorema).

•Hiperplano commargemalta e que minimize oserros de treinamento eteste é chamado dehiperplano ótimo.

Page 20: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

20

SVM com Margens RígidasSeparabilidade Linear

• Um conjunto de pontos de treinamento é chamado linearmenteseparável se existe ao menos umhiperplano que é capaz de separa-los corretamente.

Page 21: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

21

SVM com Margens RígidasHiperplano de Separação

• As SVMs foram originalmente projetadas para classificação dedados emduas classes, gerando dicotomias.- Problema de classificação considerado: Classificar objetos m-

dimensionais (vetores) nas classes +1 e –1.- Conjunto de treinamento: formado porn observações dos vetores de

entradas comsuas respectivas classificações binárias.

0=+⋅ bT xw

• Um conjunto de dados é linearmente separável se for possível dividirseus elementos emduas classes através de ao menos umhiperplano.Estes classificadores lineares podemser definidos por:

• O produto escalar envolve umvetor normal ao hiperplano (w) e ovetor de entrada. O par (w,b) é determinado durante o treinamento.

Page 22: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

22

• A equação do hiperplano divide o espaço de entrada emduasregiões que produzemdois tipos de saídas através da uma funçãosinal:

<+⋅−

>+⋅+=

0 se ,1

0 se ,1

b

by

iT

iT

ixw

xw

• Logo, umconjunto de treinamento será linearmente separável sefor possível determinar ao menos umpar (w,b) que faça a funçãosinal classificar corretamente os exemplos de tal conjunto.

SVM com Margens RígidasHiperplano de Separação

Page 23: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

23

• Deseja-se determinar o hiperplano ótimo para padrõeslinearmente separáveis. O hiperplano ótimo é aquele cuja margemde separação (ρ0) é máxima.

woTx+ bo = 0, eq. Hiperplano

ótimowo, vetor de pesos ótimobo, bias ótimo

• Os vetores suporte são aqueles quese situamsobre os hiperplanos quedistam ρ0 do hiperplano que separaas classes.

SVM com Margens RígidasHiperplano Ótimo

Page 24: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

24

• O hiperplano ótimo é definido pelos valores ótimos do vetor depesos (wo) e do bias (bo ) da seguinte forma:wo

Tx+ bo = 0.

00

0000

0

0000 )()( brbrbg

T

pT

pTT ++=++=+=

w ww

xww w

xwxwx

• A função discriminante g(x) = woTx+ bo dá uma medida algébrica

da distância dex para o hiperplano ótimo. Neste caso, pode-seescrever:

0

0

w w

xx rp += ondexp é a projeção dex no hiperplano ótimo.

Para encontrar a distânciar faz-se:

SVM com Margens RígidasHiperplano Ótimo

Page 25: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

25

Se b0 > 0, a origem está no ladopositivo do hiperplano ótimo;Se b0 < 0, a origemestá no negativo dohiperplano ótimo;Se b0 = 0, o hiperplano ótimo passapela origem.

Se x estiver na origem então0

0

w b

r =

SVM com Margens RígidasHiperplano Ótimo

00

0

20

00

)()()()()(

w x

w xxw w

xwxg

rrggrbg ppT =∴+=∴++=∴

Page 26: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

26

• Para umconjunto de treinamento linearmente separável, pode-sere-escalonar quew e b para que os pontos mais próximos dohiperplano separador que satisfaçam|wT.x + b| = 1. Isto permite aobtenção da representação canônica do hiperplano que facilitafuturas considerações na determinação do hiperplano ótimo.

• Um vetor suporte é definido como: g(x(s)) = w0Tx(s) ± b0 = ±1,

parad(s) = ±1.

• Os vetores suporte são os mais difíceis para classificar porestaremmais próximos da superfície de decisão.

SVM com Margens RígidasVetores de Suporte

Page 27: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

27

• A distância dos vetores suporte para o hiperplano ótimo écalculada:

−=−

+===

1se1

1se1

)()(

0

)(

0

0

(s)

s

s

d

dg

r

w

w w x

• Conclui-se da expressão acima que a maximização da margemdeseparação é obtida pela minimização da norma Euclidiana dewo.

• Tem-se queρ0 é o valor ótimo da margemde separação entre asduas classes que formamo conjunto de treinamento. Assimtem-seque a expressão a seguir mede a distância entre os hiperplanosw0

Tx(s) ± b0 = ±1:0

0

22

w == rρ

SVM com Margens RígidasVetores de Suporte

Page 28: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

28

• O problema de otimização comrestrições a ser resolvido é:- Dado o conjunto de treinamento (xi , di), i=1, ..., N; Encontre osvetor de pesosw e do bias b ótimos que satisfaçamas restrições:di(wTxi + b) ≥ 1, e w minimize a função de custo:

- O fator de escala (1/2) é incluído por conveniência, a função decusto é convexa, as restrições são lineares.- Este problema pode ser resolvido através do Método deMultiplicadores de Lagrange.

( ) www T21)( =Φ

• O hiperplano ótimo definido porw0Tx + b0 = 0 é único pois o vetor de

pesos ótimowo dá a separação máxima possível de exemplos positivos eos negativos. A condição ótima é atendida pela minimização da normaeuclidiana do vetor de pesosw.

SVM com Margens RígidasDeterminação dos Pesos Ótimos

Page 29: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

29

• Método dos Multiplicadores de Lagrange: Empregado pararesolver problemas de extremos sujeitos a restrições de igualdade.• Seja o problema a seguir:

Nig

f

i ,,1,0)( s.a.

)( (min)max

K==x

x

onde f e gi (i=1,..,N) são funções reais den (n > N) variáveis eduas vezes diferenciáveis numdeterminado conjunto D.• Chama-se função de Lagrange ou lagrangiano à função:

SVM com Margens RígidasPesos Ótimos por Multiplicadores de Lagrange

( )∑=

+=N

iii gfL

1

)(),( xxλx λ

Page 30: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

30

•Função Lagrangiana:

( )[ ]∑=

−+−=N

ii

Tii

T bdbJ1

121

),,( xwwww αα

( )

( )∑

=

=

=∴=∂

=∴=∂

N

iii

N

iiii

db

bJ

dbJ

1

1

00,,

:2 Condição

0,,

:1 Condição

αα

αα

w

xww

w

• O problema consiste emencontrar umponto de sela queminimize J(.) emrelação aw e b e maximize-a comrespeito aosmultiplicadores de Lagrange (α).

- MinimizandoJ(w,b,α) emrelação aw eb.

SVM com Margens RígidasPesos Ótimos por Multiplicadores de Lagrange

Page 31: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

31

∑ ∑∑

= ==

=

+−−=

∴−+−=

N

i

N

ii

N

iiii

Tii

T

N

ii

Tii

T

dbdbJ

bdbJ

1 11

1

21

),,(

]1)[21

),,(

αααα

αα

xwwww

x(wwww

∑∑∑

= ==

=

=

==

=

=

N

i

N

jj

Tijiji

N

ii

Tii

T

N

iiii

N

iii

ddd

d

d

1 11

1

1

;

;0

xxxwww

xw

ααα

α

α

• Expandindo a Função Lagrangiana tem-se:

• Para a expressão acima, tem-se que-As expressões à esquerdageramo problema dual emfunção deα.

- Os vetoresxi e xj são ovetor de entrada e o padrãode entrada pertencente aoj-ésimo exemplo,

SVM com Margens RígidasPesos Ótimos por Multiplicadores de Lagrange

Page 32: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

32

Ni

d

ddQ(bJ

i

N

iii

N

i

N

ij

Tijij

N

jii

,,2,1para,0

0 s.a.

21

)),,(Max

1

1 1 1

K=≥

=

−==

∑ ∑∑

=

= = =

α

α

ααααα

xxw

• Após determinar os multiplicadores ótimos (α0, i), w0 e b0 são obtidos:

1para ,1 )(0

1,0 ===∑

=

sN

iiii d-bd (s)T

00 xw xw α

• Deve-se encontrar os multiplicadores de Lagrange que maximize aFunção Objetivo:

SVM com Margens RígidasPesos Ótimos por Multiplicadores de Lagrange

Page 33: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

33

di(wTxi + b) ≥ 1 , para i = 1, 2, ... NA condição

pode ser violada em duas situações:

• 1ª situação de violação:• Ponto (xi, di) está naregião de separação, masdo lado correto dasuperfície de decisão.

SVM com Margens RígidasPadrões Não-linearmente Separáveis

Page 34: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

34

• 2ª situação de violação:• Ponto (xi, di) está no ladoincorreto da superfície dedecisão.

SVM com Margens RígidasPadrões Não-linearmente Separáveis

Page 35: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

35

di(wTxi + b) ≥ 1 - ξi , para i = 1, 2, ... N

• A equação anterior pode ser re-escrita, coma introdução de umconjunto de variáveis escalares não negativas .

0 ≤ ξi ≤ 1: 1ª situação

ξi > 1: 2ª situação

• O conjunto é adicionado à função de custo:

∑=

+=ΦN

ii

T C12

1 ξξ ww )(w,

Nii 1}{ =ξ

N1ii }{ =ξ

(21)

- que deve ser minimizada, sujeita às restrições: Eq. (21) e ξi ≥ 0.

SVM com Margens RígidasPadrões Não-linearmente Separáveis

Page 36: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

36

• A maximização deQ(α ) é realizada comalteração emuma de suasrestrições:

Logo, w0 é obtido por:

e b0 através de:

∑=

=N

iiid

1

0α e 0 ≤ αi ≤ C, para i = 1, 2, ... N

αi[yi (w0Txi + b0) - 1 + ξi] = 0

∑ ∑∑= = =

−==N

i

N

ij

Tijij

N

jii ddQ(bJ

1 1 121

)),,( xxw ααααα

∑=

=N

iiid

11,00 xw α

SVM com Margens RígidasPadrões Não-linearmente Separáveis

Page 37: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

37

• Classificadores lineares são limitados, veja a porta XOR. Contudo, elespossuemboas propriedades como função de decisão fácil.• Dados não-linearmente separáveis podemse tornar linearmente separáveis,emum espaço transformado através de ummapeamentoΦ. Este novo espaço échamado de espaço de características (feature space).

SVM Separando Padrões Não-linearmente Separáveis - Mapeamento Φ

Φ

Feature Space

Page 38: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

38

• Deve-se substituir cada produto escalar no espaço de entradapor pontos transformados.

• Possível problema:•O espaço transformado pode ter número muito alto, até infinito, dedimensões, impossibilitando o cálculo do produto interno.• É difícil tambémencontrar a funçãoΦ que resolva o problema.

( ) ( )( )

+⋅=

+⋅=

=

=

N

iji

Tjiij

N

iji

Tjiij

bdf

bdf

1

1

sgn)(

)(sgn)(

xΦxΦx

xxx

α

α

SVM Separando Padrões Não-linearmente Separáveis - Mapeamento Φ

Page 39: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

39

• Comuma função especial, chamada função kernel é possível calcularo produto escalarΦ(xi)Φ(xj) semmesmo conhecer o mapeamentoΦ.

•Definição do kernel do produto interno• O produto interno de dois vetores induzidos no espaço de característicaspor xi e xj compõema definição do referido kernel:

• O kernel do produto interno é comutativo comrespeito a seusargumentos.

SVM e a Função KernelDefinição e Papel

( )

+=

+⋅= ∑∑==

N

ijijii

N

iji

Tjiij bKdbdf

11

),(sgn)(sgn)( xxxxx αα

( ) ( ) ( ) ( )∑=

=⋅=N

lllij

Tij ΦΦK

1

),( xxxΦxΦxx

Page 40: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

40

• A definição para K (xi,xj) é umcaso particular do teorema de Mercerno âmbito de análise funcional:

• SejaK (x,x´) um kernel contínuo e simétrico que é definido nointervalo fechadoa ≤ x ≤ b e da mesma forma parax´. O kernelpode ser expandido pela série:

• Expansão válida e convergente, absoluta e uniformemente,see só se:

( ) ( ) 0,´´),(1

>∀=∑∞

=l

llll ΦΦK λλ xxxx

∞<Ψ

ΨΨ

∫ ∫a

b

a

b

a

b

xx

xxxxxx

d

dd´,K

)( quando para vale

´´)()()(

2

•As funçõesΦl são chamadasautofunções e os númerosλl

são denominados autovalores.

SVM e a Função KernelDefinição e Papel

Page 41: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

41

Exemplo com o Kernel RBF

• Nestes exemplos de funçõeskernel, geralmente, possuemparâmetros escolhidos pelousuário e faixa de validade destesparâmetros para o Teorema deMercer.

( ) ( )

( )22

2

1 :Inv. áticaMultiquadr;).(tanh :Sigmoidal

).( :Polinomial;exp),( :Guassiana RBF

:kernel função de Exemplos

cK

cK d

+−+

+−−=

yxyx

yxyxyx

θ

θ

SVM e a Função KernelDefinição e Papel

Page 42: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

42

• A expansão de K (xj,xi) permite a construção de superfície de decisãonão-linear no espaço de entrada, comimagem linear no espaço decaracterísticas. Tal expansão viabiliza o enunciado da forma dual daotimização comrestrições de uma SVM:

( ){ }

( )

usuário. pelo odeterminad é e ,,2,1 para,0

0 s.a.

,21

)

objetivo função a maximizam que Lagrange de

doresmultiplica os encontre ,, to treinamende conjunto um Dado

1

1 1 1

N

1i

CNiC

d

KddQ(

dx

i

N

iii

N

i

N

ijijij

N

jii

ii

K=≤≤

=

−=

∑ ∑∑

=

= = =

=

α

α

αααα xx

SVM e a Função KernelDefinição e Papel

Page 43: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

43

• Três idéias fundamentais:• Definição de umhiperplano ótimo de modo que ele possa ser

identificado emmaneira computacional eficiente: Maximize amargem.

• Extensão da definição acima para problemas linearmente não-separáveis: Considere uma penalidade para termosequivocadamente classificados.

• Mapeamento dos dados para umespaço de dimensão mais alta noqual é mais fácil realizar classificação comsuperfícies lineares dedecisão: reformula o problema tal que os dados são mapeadosimplicitamente para este espaço.

SVM e a Função KernelDefinição e Papel

Page 44: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

44

SVM e a Função KernelArquitetura

Page 45: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

45

• Reconhecimento decaracteresmanuscritos:• Exemplos de

caracteres:

SVM: Aplicações

Page 46: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

46

• Reconhecimento decaracteresmanuscritos:• Desempenho

de máquinasdeaprendizagemdistintas:

SVM: Aplicações

Page 47: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

47

• Detecção de faces (definição): Dadauma imagemdigital arbitrária determinese existe faces humanas nesta imagem.• Se existirem, retorne uma codificação de

sua localização.• Codificação significa acomodar cada face

em uma caixa de fronteiras definida pelascoordenadas das esquinas na imagem.

• Pode ser extendida para reconhecimento defaces, HCI, sistemas de vigilância, etc.

SVM: Aplicações

Page 48: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

48

• Detecção de faces (processo):• SVM treinada para padrões

com tamanho fixo de face enão face.

• Teste de candidatos delocalização de imagens parapadrões locais comprocedimento de classificaçãoque determina se padrão deimagemlocal é uma face.

• Este problema de classificação,temduas classes dicotômicas.

SVM: Aplicações

Page 49: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

49

• Resultados experimentais emimagens estáticas:– Conjunto A: 313 com alta qualidade, mesmo número de faces.

– Conjunto B: 23 com qualidade misturada, total de 155 faces.

SVM: Aplicações

Page 50: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

50

• Visão Computacional:• Detecção de pele.

SVM: Aplicações

Page 51: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

51

Discussão

• Os parâmetros têmgrande influência no treinamento.• Interface de treinamento geral.• Tempo de treinamento depende da CPU.• Necessidade de interface para aplicações.• SVM expressa aprendizagemcomo umprograma matemático

empregando a teoria de otimização.• SVM emprega a transformação pelo kernel para mapear

indiretamente para espaços de dimensões mais altas.• SVM tem se caracterizado por bomdesempenho, robustez,

eficiência e versatilidade ao mesmo tempo que existemindicações teóricas dos motivos de sua capacidade degeneralização.

Page 52: Máquinas de Vetores de Suporte - UFPEcin.ufpe.br/~aluizioa/RN/RN-06-SVM.pdf · 2017-05-03 · 3 Introdução-As Máquinas de Vetores Suporte (Support Vector Machines - SVMs)são

52

Referências

• Haykin, S. (1999).Neural Networks – A Compreensive Survey. Prentice-Hall, New Jersey, second edition.

• Smola, A. J., Barlett, P., Schölkopf, B., & Schuurmans, D. (1999).Advancesin Large Margin Classifiers. The MIT Press (http://www.kernel-machines.org/nips98/lmc-book.pdf).

• Vapnik, V. N. (1995).The Nature of Statistical Learning Theory. Springer-Verlag.