Métodos Matemáticos na Ciência de Dados: Introdução...

70
Vladimir G. Pestov Métodos Matemáticos na Ciência de Dados: Introdução Relâmpago Florianópolis, SC 2014

Transcript of Métodos Matemáticos na Ciência de Dados: Introdução...

Page 1: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

Vladimir G. Pestov

Métodos Matemáticos na Ciência de

Dados: Introdução Relâmpago

Florianópolis, SC

2014

Page 2: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.
Page 3: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

Vladimir G. Pestov

Métodos Matemáticos na Ciência de Dados:Introdução Relâmpago

Minicurso apresentado no IIIoColóquio de Matemática da Re-gião Sul, realizado na Universi-dade Federal de Santa Catarina,em maio de 2014.

Florianópolis, SC

2014

Page 4: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

Resumo

A ciência de dados, as vezes chamada de “a próxima grande coisa”(“the next big thing”), é um campo natural de pesquisa aplicadapara os matemáticos. Em particular, a aprendizagem automá-tica estatística é uma área de pesquisa fascinante, pelo menosa três níveis diferentes: como uma teoria matemática da grandeprofundidade e beleza, como uma direção do desenvolvimento dealgoritmos, e como uma plataforma muito poderosa para aplica-ções práticas.

O ministrante do curso é um pesquisador em matemática pura,que está interessado também do desenvolvimento de novos al-goritmos para análise de grandes conjuntos de dados. Em No-vembro 2013, com uma equipe de 3 de seus estudantes de pós-graduação, ele ganhou o primeiro lugar na 4a Competição Inter-nacional de Mineração de Dados de Segurança Cibernética (4-thCybersecurity Datamining Competition — CDMC’2013, Daegu,Korea, 3–7 do Novembro 2013).

Este minicurso é uma introdução compacta e não tradicionalaos métodos modernos de análise de grandes volumes de dadosatravés da aprendizagem automática estatística, explicando amatemática para trás de alguns algoritmos que utilizou com suaequipe para vencer o evento.

Palavras-chaves: ciência de dados, aprendizagem automáticaestatística, classificador k-NN, consistência universal, aplicaçõesborelianas, redução de dimensionalidade

Page 5: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

Sumário

1 Problema de classificação binária . . . . . . 5

2 Consistência universal . . . . . . . . . . . . . 15

3 Maldição de dimensionalidade . . . . . . . . 33

4 Redução de dimensionalidade . . . . . . . . 53

Referências . . . . . . . . . . . . . . . . . . . 65

Page 6: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.
Page 7: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

5

1 Problema de classificação bi-

nária

Vamos começar pela noção básica da aprendizagem su-pervisonada: o problema de classificação binária. Para tanto, to-mamos uma experiência simples. Geramos n = 1000 pontos ale-atórios no quadrado unitário [0, 1]2, distribuidos uniformementee independamentes um do outro. (A distribuição uniforme sig-nifica que a probabilidade de que um ponto x pertença a umpequeno quadrado [a, a+ ε]× [b, b+ ε] de lado ε > 0 é proporci-onal (com efeito, igual) à área do quadrado, ε2.)

Espera ver algo assim?

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Figura 1 – Uma grade uniforme com 1024 = 322 pontos.

Com efeito, isto não é o que o conjunto de dados resul-tante pode parecer. Em vez disso, veja figura 2.

Page 8: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

6 Capítulo 1. Problema de classificação binária

0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1

Figura 2 – Uma amostra aleatória de 1000 pontos tirados uni-formemente do quadrado.

Note, em particular, a presença do que aparece comouma estrutura interna de dados significativa: os grandes bura-cos aqui e ali, agrupamentos de pontos... Estas são, na verdade,desvios aleatórios, não carregando nenhuma informação útil.

O nosso conjunto de dados,

X = x1, x2, . . . , x1000,

é uma amostra. O quadrado [0, 1]2 é o domínio.

Agora dividimos os dados em duas classes: a classe A dospontos sobre ou acima da diagonal (marcados pelos asteríscos)e a classe B dos pontos abaixo da diagonal (marcados pelospequenos quadrados). Obtemos o que é chamado uma amostrarotulada (labelled sample). Ver Figura 3.

Observe um efeito visual interessante: parece que a fron-teira entre as duas classes é uma curva ondulada, ao invés de

Page 9: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

7

0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1

Figura 3 – Amostra rotulada.

uma linha reta! No entanto, você pode usar uma régua paraconvencer-se de que não há nenhum erro e os centros de todosos asteríscos estão realmente acima da diagonal, enquanto oscentros de todos os quadrados estão abaixo.

Marcando os elementos de A com 1 e os elementos deB com 0, a nossa amostra rotulada pode ser escrita da seguintemaneira:

σ = (x1, x2, . . . , x1000, ε1, ε2 . . . , ε1000),

onde por valor εi do rótulo do ponto xi, temos εi ∈ 0, 1, i =

1, 2, . . . , 1000. (Certo, ao lado dos rótulos 0 e 1 pode se usar, porexemplo, −1 e +1...)

Neste exemplo “de brinquedo” a dimensão dos dados é2, e o conjunto de dados pode ser visualizado, o que ajuda muitopara determinar a sua estrutura. Cada ponto é um elementode R2, representado por duas coordenadas, xi = (x

(1)i , x

(2)i ). A

amostra rotulada σ pode ser tratada como um subconjunto (or-

Page 10: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

8 Capítulo 1. Problema de classificação binária

denado) de [0, 1] × [0, 1] × 0, 1, e escrita como uma matriz dedimensão 1, 000× 3: cada linha (x

(1)i , x

(2)i , εi) representa um ele-

mento de X, assim que seu rótulo. Essa representação matricialdos conjuntos de dados é bastante comum. De uma maneira maisabstrata, podemos escrever

σ ∈ ([0, 1]× [0, 1])n × 0, 1n.

Chegamos ao sequinte problema de classificação binária:a partir da amostra rotulada σ, construir uma função

T : [0, 1]2 → 0, 1

(chamada classificador, ou preditor, ou função de transferência),definida sobre todo o domínio, que seja capaz de predizer comconfiança um rótulo não só para os dados existentes, mas tam-bém para novos dados. Podemos dizer que esse é o problemacentral da aprendizagem automática estatística supervisionada.

Claro que sabemos a resposta para nosso “problema debrinquedo”: ela é dada pelo classificador de verdade

Ttrue(x) = η(x(1) − x(2)),

onde η é a função de Heaviside,

η(x) =

1, se x ≥ 0,

0, se x < 0.

Mas se o problema for mostrado a alguma outra pes-soa (ou máquina), que não sabe como as duas classes A e Bforam formadas, você pode obter outras respostas. Por exemplo,o seu próprio córtex visual, ao analisar a imagem na figura 3,sugere separar as duas classes com uma linha ondulada! Um tal

Page 11: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

9

classificador poderia não ser exato, mas estar perto da verdadepara ser aceitável. As chances de classificação errônea (o errode classifição) para um novo ponto de dados seriam relavamentepequenos.

Alguém pode sugerir a seguinte solução simplista: atri-buir o valor 1 a todos os pontos de dados atuais que estão acimada diagonal, e o valor 0 a todos os outros pontos, atuais e futuros:

T (x) =

1, if x ∈ A,0, otherwise.

Este classificador dá uma resposta correta para todos os pontosatuais xi ∈ X, i = 1, 2, . . . , 1, 000. No entanto, se nós gerarmosaleatoriamente um novo ponto y ∈ [0, 1]2, com probabilidade 1/2

ele ficará acima da diagonal. Ao mesmo tempo, a probabilidadede escolher um ponto em X é zero. Assim, com probabilidade de1/2, o classificador T irá retornar um valor falso para y. Entretodos os pontos gerados no futuro,

x1001, x1002, . . . , x1000+n, . . . ,

aproximadamente metade deles serão classificados erroneamente.Para n suficientemente grande, o classificador T fornecerá umaresposta errada aproximadamente na metade dos casos — cer-tamente um fracasso completo. Jogando a moeda equilibradapodemos conseguir a mesma taxa de sucesso de 1/2, sem usarqualquer classificador, simplesmente atribuindo a um ponto umvalor aleatório 0 ou 1.

Como podemos distinguir um bom classificador de umruim? Ou seja, dado um classificador, T , existe uma maneira deverificar se T é susceptível de atribuir a maioria dos pontos dedados futuros à classe correta?

Page 12: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

10 Capítulo 1. Problema de classificação binária

À primeira vista, o problema parece completamente in-tratável: como possivelmente podemos mostrar algo sobre os da-dos que ainda não existem? Na verdade, é quase incrível que –pelo menos dentro de um modelo teórico – tais predições podemser feitas com um grau considerável de certeza.

Todavia, vamos deixar este problema para mais tarde.Consideremos um exemplo real: um conjunto de dados da com-petição CDMC’2013 de mineração de dados para o problema dedeteção de intrusos numa rede, coletados por um sistema realIDS (Intrusion Detection System) na Coréia. (Para mais infor-mações, consulte [24]. Este conjunto não está disponível publica-mente, mas outros conjuntos semelhantes são, por exemplo [6]).

Cada linha da matriz corresponde a uma sessão, ondeas 7 coordenadas são os valores dos parámetros da sessão. Exis-tem n = 77, 959 pontos de dados, incluindo 71, 758 sessões nor-mais (sem intruso), rotuladas +1, e 6, 201 sessões ataque (comintruso), rotuladas −1. A Figure 4 mostra um extrato das 15

linhas da matriz.

O objetivo é de construir um classificador capaz de aler-tar de um intruso em tempo real com um erro mínimo e umaconfiança alta.

O que seria o classificador mais natural de se usar, ba-seado em nossa experiência cotidiana e o senso comum?

Suponha que você queira vender o carro. Para deter-minar um preço razoável, você vai buscar algumas informaçõessobre a venda dos carros do mesmo modelo, idade, milhagem,até a cor. Em outras palavras, você busca um carro o mais se-melhante ao seu, e a sua cotação de venda dá uma boa idéia do

Page 13: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

11

............+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08+1 1:-0.67 2:-0.03 3:0.04 4:1.95 5:-0.05 6:-0.10 7:1.11+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08+1 1:-0.63 2:-0.03 3:0.03 4:1.89 5:-0.05 6:-0.10 7:1.11+1 1:-0.59 2:-0.03 3:0.03 4:1.83 5:-0.05 6:-0.09 7:1.11-1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08-1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08+1 1:1.09 2:-0.03 3:-0.02 4:-0.49 5:-0.05 6:-0.15 7:1.11

............

Figura 4 – Fragmente do conjunto de dados para deteção de in-trusos na rede.

preço a escolher.

É exatamente como o classificador de vizinhas mais pró-ximas, ou o clasificador NN (Nearest Neighbour Classifier) fun-ciona. Dado um ponto qualquer y do domínio, Ω, buscamos oponto x do conjunto de dados atual, X, mais próximo a y. Oclassificador NN atribui a y o mesmo rótulo que o rótulo de x.Obviamente, a fim de determinar o vizinho mais próximo, precisade uma função de semelhança qualquer sobre o domínio:

S: Ω× Ω→ R.

Tipicamente, S é uma métrica, por exemplo, a métrica euclide-ana.

Voltando à venda do carro, provavelmente é mais ra-

Page 14: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

12 Capítulo 1. Problema de classificação binária

++

++

+

++

+

− − −

Figura 5 – O voto majoritário para k = 3, entre +,+,−, retorna+, a para k = 4, entre +,+,−,−, é indeciso.

zoável buscar mais de um carro semelhante ao seu, e determinaro preço baseado sobre uma variedade dos preços destes carros.Obtemos o classificador de k vizinhos mais próximos, ou classifi-cador k-NN, onde k é um número fixo. Dada a amostra rotulada,

σ = (x1, x2, . . . , xn, ε1, ε2, . . . , εn) ∈ Ωn × 0, 1n,

e o ponto da entrada y ∈ Ω, o classificador k-NN escolhe k

vizinhos mais próximos a y, xi1 , xi2 , . . . , xik ∈ X, e determina orótulo de y pelo voto majoritário entre os rótulos εi1 , εi2 , . . . , εik .Se a votação for indecisa (o que é possível se k for par), o rótulode y é escolhido aleatoriamente.

Como podemos garantir que as previsões dadas por umclassificador são confiáveis? Na prática, a técnica comumenteusada é a validação cruzada. O conjunto de dados é divididoaleatoriamente no conjunto de treinamento (tipicamente, 75 a 90por cento dos pontos) e o conjunto de avaliação (o restante 10 a25 por cento). Somente os dados de treinamento são usados peloalgoritmo, e os dados de avaliação são aplicados para estimar oerro de predição.

Page 15: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

13

Denotameros T : Ω → 0, 1 o classificador, Xt o con-junto de treinamento, e Xa o conjunto de avaliação:

X = Xt ∪Xa, Xt ∩Xa = ∅.

O valor seguinte é o estimador estatístico do erro de predição(ou: erro de classificação) de T :

|i:xi ∈ Xa, T (xi) 6= εi||Xa|

.

O procedimento é iterado muitas vezes, e o valor médiodos erros cada vez estimados serve como uma boa aproximaçãoao valor do erro verdadeiro de classificação do T .

Para aplicar classificadores aos conjuntos de dados con-cretos, é preciso escolher uma linguagem de programação. Te-oricamente, qualquer linguagem pode ser utilizada: todas sãoequivalentes à máquina de Turing! Portanto, a linguagem utili-zada mais comunamente em mineração de dados (até 2/3 doscasos, de acordo com algumas estimativas) é R [22], a lingagemde programação estatística, criada no Departamento de Estatís-tica da Universidade de Auckland, Nova Zelândia e baseado emsoftware livre (no formato do projeto GNU). Duas boas fontesintrodutórias são [18] e [14]. A fonte mais abrangente com in-formações sobre R, The R Book, é disponível livremente na web[5].

Eu sugiro que você baixe a linguagem R seguindo asinstruções em qualquer uma dessas fontes acima, e comece aexperimentar com ela após os exercícios dos livros [18, 14].

Existem muitas implementações disponíveis do classifi-cador k-NN em R, por exemplo, o classificador IBk do pacoteRWeka, ou o do pacote FNN [9].

Page 16: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

14 Capítulo 1. Problema de classificação binária

Exercício 1.1. Baixar o conjunto de dados Phoneme [20], étreinar o classificador k-NN em R.

Aplicando o classificador k-NN ao nosso conjunto dedados para deteção de intrusos na rede, obtemos um classificadorcujo erro de classificação é ao torno de 0.3 %.

Certo, é um bom resultado. Todavia, se você partici-par numa competição, claro que todos outros participantes vãousar os classificadores padrão. Para melhorar o resultado, é pre-ciso combinar as técnicas conhecidas com as novas abordagens.E antes de melhorar o desempenho do algoritmo, precisamoscompreender o que pode ser melhorado, onde há um problemapossivel?

Mas antes mesmo de examinar esta pergunta, temosuma ainda mais fundamental: por que nós esperamos que o clas-sificador k-NN funcione, dê resultados confiáveis?

A única maneira de analisar as perguntas deste tipo éno formato de um modelo matemático da aprendizagem super-visionada. Este modelo é o tema da próxima aula.

Page 17: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

15

2 Consistência universal

Os dados são modelados pelas variáveis aleatórias, oque é a noção básica da teoria de probabilidade. A fim de com-prenender esta noção, relembramos primeiramente a noção bemconhecida de variável, muito comum na matemática pura (geo-metria, álgebra, análise...) Eis alguns contextos típicos onde asvariáveis fazem a sua aparição.

(1) Determinar os valores de x por quais

5x2 − x+ 3 = 0.

(2) Suponha que t ∈ [0, 1]. Então ....

(3) Sejam x, y, z ∈ R quaisquer. Suponha que x < y.Então x+ z > y + z.

(4) Seja z um número complexo qualquer. O valor ab-soluto de z ....

Uma variável é um elemento qualquer (desconhecido) deum conjunto (R nos casos (1) e (3), [0, 1] no (2), C no (4), etc.).As variáveis na teoria de probabilidade são de uma naturezaligeiramente diferente. Elas são denotadas habitualmente pelasletras maiúsculas, X,Y, Z, . . ., a fim de distinguir das variáveis“usuais”. Se X é uma variável aleatória (abreviamos: v.a.) real,isso significa duas coisas. Primeiramente, tudo como no caso deuma variável usual,

- X é un número real cujo valor exacto é desconhecido:X ∈ R.

Page 18: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

16 Capítulo 2. Consistência universal

Mas tem mais das informações adicionais disponíveis.Mesmo se o valor de X é desconhecido, se sabe

- a probabilidade de X pertençer à cada região A de R.

Em outras palavras, se A ⊆ R é uma parte de R, então seconhece um número real entre 0 e 1 que fornece a probabilidadedo evento X ∈ A. Este número é denotado por

P [X ∈ A],

e as informações conjuntas sobre os valores P [X ∈ A] para todosA se chamam a lei de probabilidade, ou simplesmente a lei de X.Então, uma variável aleatória é uma variável “usual” munida deuma lei. Por exemplo, se a, b ∈ R, a ≤ b são quaisquer, então sesabe a probabilidade

P [a < X < b]

de que o valor de X esteja entre a e b. A lei de uma variávelaleatória se denota por uma letra grega, por exemplo, µ ou ν. Éuma aplicação associando à cada região A de R um número real,

R ⊇ A 7→ µ(A) = P [X ∈ A] ∈ [0, 1].

Eis alguns exemplos.

1. Uma variável aleatória de Bernoulli toma dois valores:0 e 1, cada uma com a probabilidade 1/2:

P [X = 0] =1

2= P [X = 1].

Para calcular a lei de X, seja A ⊆ R um conjunto qualquer.Obviamente, se A contém ambos 0 et 1, então a probabilidadeque X ∈ A é igual à 1, é um evento certo. Se A não contém nem

Page 19: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

17

0 nem 1, então o evento X ∈ A é improvável, a sua probabilidadeé 0. Afinal, se A contém exatamente um dos pontos 0, 1, entãoa probabilidade do evento X ∈ A é 1/2:

P [X ∈ A] =

1, se 0, 1 ∈ A,12 , se 0 ∈ A e 1 /∈ A,12 , se 0 /∈ A e 1 ∈ A,0, se 0 /∈ A, 1 /∈ A.

Uma variável de Bernoulli modela uma jogada única deuma moeda justa, onde a probabilidade de dar “coroa” (o valor1) é 1/2, a mesma que a probabilidade de dar “cara” (o valor 0).

De maneira mais geral, se a moeda não é justa, entãoa probabilidade de dar “coroa” pode ser um valor qualquer p ∈[0, 1],

P [X = 1] = p,

é a probabilidade de dar “cara” é

P [X = 0] = 1− p = q.

A lei de probabilidade de uma variável aleatória real, X,é completamente determinada pela sua função de distribuição,Φ. É uma função real dada por

Φ(t) = P [X < t].

É facil de calcular a função de distribuição de uma v.a. de Ber-noulli, veja Figura 6.

Se o conjunto dos valores da função de distribuição deuma variável aleatória X é enumerável, então X é dita discreta.Por exemplo, a variável aleatória de Bernoulli é discreta.

Page 20: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

18 Capítulo 2. Consistência universal

y

0

0.5

1

1 x

Figura 6 – Função de distribuição de uma variável aleatória deBernoulli.

2. Uma variável aleatória de lei uniforme com os valoresno intervalo [0, 1] é dada pela fórmula seguinte: quaisquer sejama, b ∈ R, a < b,

P [X ∈ (a, b)] =

∫ b

a

χ[0,1](t) dt. (2.1)

Aqui, χ[0,1] nota a função indicadora do intervalo [0, 1] (Figura7):

χ[0,1](t) =

1, se x ∈ [0, 1],

0, caso contrário.

Por exemplo,

P [0 ≤ X ≤ 1] =

∫ 1

0

χ[0,1](t) dt = 1,

e

P

[−1

2≤ X ≤ 1

2

]=

∫ 12

− 12

χ[0,1](t) dt =1

2.

Page 21: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

19

1x

y

1

Figura 7 – Grafo da função indicadora do intervalo [0, 1].

Se um intervalo (a, b) está contido em [0, 1], então

P [X ∈ (a, b)] =

∫ b

a

χ[0,1](t) dt

=

∫ b

a

1 · dt

= b− a.

Em outras palavras, neste caso a probabilidade de que X per-tença ao intervalo (a, b) é igual ao comprimento do intervalo.

Se a lei de uma variável aleatória é dada pela integral,como na fórmula (2.1), então a função sobre integral é dita adensidade de X. A densidade de uma v.a. uniforme é a funçãoindicadora:

χ[0,1](t).

Exercício 2.1. Mostrar que a lei de Bernoulli não possui den-sidade.

Page 22: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

20 Capítulo 2. Consistência universal

A função de distribuição de uma v.a. uniforme é calcu-lada facilmente (Figura 8).

y

0

1

1 x

Figura 8 – A função de distribuição de uma variável aleatóriauniforme.

Uma variável aleatória real X é dita contínua se os va-lores da sua função de distribuição preenchem o intervalo [0, 1].A v.a. uniforme é obviamente contínua.

Exercício 2.2. Seja X uma v.a. a qual possui densidade. Mos-trar que X é contínua.

Exercício 2.3 (∗). Construir um exemplo de v.a. a qual não écontínua e não possui densidade.

Exercício 2.4. Construir um exemplo de v.a. nem discreta nemcontínua.

Uma variável aleatória real é gaussiana (ou: segue a leinormal centrada e reduzida, se X possui densidade dada por

1√2πe−t

2/2.

Page 23: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

21

Em outras palavras, quais quer sejam a, b ∈ R,

P [a < X < b] =1√2π

∫ b

a

e−t2/2dt.

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Densité de distribution normale: µ = 0, σ

=

1

x

densité

Figura 9 – A função de densidade da lei gaussiana.

A lei semi-circular é dada pela função de densidade

f(t) =

√1− t2, si |t| ≤ 1,

0, se não..

Estritamente falando, o gráfo da densidade não é umsemi-círculo, mas, melhor, uma semi-elipse – o fator normali-zador 2/π ≈ 0.637 é necessário para que a probilidade de umevento certo seja igual a 1.

A noção de uma variável aleatória não é apenas o únicoconceito mais fundamental da teoria de probabilidade, mas é,

Page 24: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

22 Capítulo 2. Consistência universal

0.636...

x

y

−1 1

Figura 10 – A densidade da lei semi-circular.

sem dúvida, uma das mais importantes noções em todas ciên-cias matemáticas. Alguns matemáticos argumentam que, even-tualmente, os fundamentos da matemática devem ser alteradosde modo que as variáveis aleatórias sejam tratadas juntamentecom conjuntos...

Até agora, só vimos as variáveis aleatórias reais, comvalores em R. Mas elas podem assumir valores em domínios Ω

mais gerais.

Seja Ω um domínio geral. Quais são as propriedadesdesejadas da lei, µ, de uma variável aleatória X com valoresem Ω? Claro, os valores da lei pertencem no intervalo [0, 1], e aprobabilidade que X ∈ Ω deve ser 1:

(P1) P [X ∈ Ω] = µ(Ω) = 1.

A probabilidade de x pertencer a união de uma famí-lia disjunta dos conjuntos Ai, i ∈ I deve ser igual à soma das

Page 25: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

23

probabilidades de que x ∈ Ai para todos i:

Pr[X ∈

⋃Ai

]=∑

Pr[X ∈ Ai].

Qual é o tamanho das famílias que devemos considerar?Se nós restringimos a propriedade às uniões finitas, a noção deprobabilidade resultante é muito geral e fraca demais. Se, pelocontrário, permitimos as uniões de todos as famílias, a noção deprobabilidade que obtemos é demasiado restritiva.

Exercício 2.5. Seja X uma variável aleatória com valores emum conjunto Ω cuja lei possui a propriedade que, qualquer sejaa família disjunta dos conjuntos Ai ⊆ Ω, i ∈ I, Ai ∩Aj = ∅ portodos i, j, i 6= j, temos

P [X ∈ ∪i∈IAi] =∑i∈I

P [X ∈ Ai].

Mostrar que X é discreta.

A escolha mais natural e frutífera é a das famílias enu-meráveis.

(P2) SeAi, i = 1, 2, 3, . . . são disjuntos dois-a-dois, então µ(∪∞i=1Ai) =∑∞i=1 µ(Ai).

Como um corolário imediato, obtemos, no caso ondeA1 = A e A2 = Ac = X \A:

(P2′) Se A ⊆ Ω, então P (Ac) = 1− P (A).

Se µ é a lei de uma variável de Bernoulli (mais geral-mente, de uma variável discreta), então o valor

µ(A) = P [X ∈ A]

Page 26: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

24 Capítulo 2. Consistência universal

é bem definido qual seja um subconjunto A ⊆ Ω do domínio. Po-demos esperar o mesmo para cada variável aleatória? A respostaé negativa. Com efeito, pode se mostrar que se uma v.a. X de leiµ não é discreta, então o valor µ(A) não pode ser definido portodos subconjuntos do domínio da maneira que as propriedades(P1) e (P2) sejam satisfeitas (assumindo o Axioma de Escolha).

Por esse motivo, somos forçados a restringir a coleçãoB dos subconjuntos A ⊆ Ω, para as quais o valor P [X ∈ A] ébem definido. O axioma (P1) implica que Ω sempre pertença àfamília B. Segundo o axioma (P2), se

A1, A2, . . . ∈ B,

então a sua união pertença a B também:⋃i

Ai ∈ B.

Tendo em conta o axioma (P2′), concluímos que, se A ∈ B,então Ac ∈ B. Em breve, a família B deve contar Ω, os comple-mentares de todos os seus membros, e as uniões de sub-famíliasenumeráveis.

Se Ω é um espaço métrico, é razoável de exigir que a leiseja bem-definida para todas as bolas abertas:

Br(x) = y ∈ Ω: d(x, y) < r.

Isso é necessário, por exemplo, para conhecer a probabilidade doevento

[d(X,x) < r].

A menor família B que contém Ω, todas as bolas abertas, éfechada com relação aos complementares e uniões de sub-famílias

Page 27: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

25

enumeráveis, se chama a família de sub-conjuntos borelianos deΩ.

Um espaço métrico Ω é dito separável se existe um sub-conjunto enumerável A cujo fecho é Ω:

A = Ω.

Exercício 2.6. Seja Ω um espaço métrico separável. Mostrarque cada subconjunto aberto e cada subconjunto fechado de Ω

são borelianos.

Exercício 2.7. Mostrar os exemplos de subconjuntos borelianosde [0, 1] que não são nem abertos nem fechados.

Uma função µ na classe B dos conjuntos borelianos deΩ com valores em [0, 1] que satisfaz (P1) e (P2) é uma medidade probabilidade boreliana. Cada medida de probabilidade sobreΩ é a lei de uma variável aleatória com valores em Ω.

Sejam Ω e W dois espaços métricos, e f : Ω → W umafunção. Seja X uma variável aleatória com valores em Ω. Entãof(X) é uma variável aleatória com valores em W . A lei, ν, def(X) é a imagem direita da lei µ de X pela f : se B ⊆W , então

ν(B) = µ(f−1(B)).

Demonstração:

P [f(X) ∈ B) = P [X ∈ f−1(B)].

A lei ν é as vezes denotada

ν = f∗(µ).

Page 28: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

26 Capítulo 2. Consistência universal

A única condição necessária sobre f é que a imagem inversade cada sub-conjunto boreliano B ⊆ W por f seja boreliano.Uma tal função se chama função boreliana. Pode se verificar quef : Ω → W é boreliana se e somente se a imagem inversa decada sub-conjunto aberto de W é boreliana. Em particular, cadafunção contínua é boreliana, mas as funções borelianas são muitomais numerosas.

Exercício 2.8. Construir uma função boreliana discontínua.

Se temos mais de uma variável aleatória,

X1, X2, . . . , Xn, . . . ,

tomando os valores, respectivamente, nos espaços Ω1,Ω2, . . .,Ωn, . . ., então elas podem ser combinados numa única variávelaleatória, tomando os valores no produto dos espaços Ωi:

X = (X1, X2, . . . , Xn, . . .) ∈ Ω1 × Ω2 × . . .× Ωn.

A lei µ da variável X é chamada a lei conjunto das variáveisX1, X2, . . . , Xn, . . .. Notação:

µ = ⊗∞i=1µi.

Esta µ é também chamada a medida produto das medidas deprobabilidade µ1, µ2, . . ..

As variáveis aleatórias X1, X2, . . . , Xn, . . . são ditas in-dependentes se, cada vez que Ai é um subconjunto boreliano deΩi, i = 1, 2, . . ., temos

Pr[X1 ∈ A1, X2 ∈ A2, . . . , Xn ∈ An, . . .] =

Pr[X1 ∈ A1]× Pr[X2 ∈ A2]× . . .× Pr[Xn ∈ An]× . . . .

Page 29: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

27

Por exemplo, sejam X e Y duas v.a., cada uma de leiuniforme sobre o intervalo [0, 1]. Se X e Y são independentes,isso significa que a variável aleatória Z = (X,Y ) com valores noquadrado [0, 1]2 tem lei, µ, que é uniforme no quadrado: quais-quer sejam a, b, c, d, a ≤ b, c ≤ d, temos

µ([a, b]× [c, d]) = (b− a)(d− c).

Ao contrário, se, por exemplo, Y = X, então a lei davariável Z = (X,Y ) é concentrado na diagonal do quadrado: seA1, A2 ⊆ [0, 1] são disjuntos, então, obviamente,

P [X ∈ A1, Y ∈ A2] = 0,

de onde é fácil de concluir que

µ(∆) = 1,

onde

∆ = (x, x):x ∈ [0, 1].

Se X1,2 , . . . , Xn é uma sequência das variáveis aleató-rias independentes distribuídas segundo a lei gaussiana em R,então sua lei conjunto é a lei gaussiana n-dimensional em Rd,determinada pela densidade

1

(2π)n/2e−(t21+t22+...+t2n)/2.

Isso significa que, qualquer seja um sub-conjunto boreliano A ⊆Rd,

P [X ∈ A] =1

(2π)n/2

∫A

e−(t21+t22+...+t2n)/2dt1 . . . dtn.

Page 30: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

28 Capítulo 2. Consistência universal

Se o espaço Ω é munido de uma estrutura linear (alémda boreliana) — por exemplo R, ou Rd, ou espaço de Hilbert,etc. — então pode se definir a esperança de X:

EX =

∫Ω

x dµ(x).

A lei dos grandes números é o resultado mais básico deprobabilidade. Seja X1, X2, . . . , Xn, . . . uma sequência de variá-veis aleatórias reais independentes identicamente distribuídas.Suponha que Xi são limitadas. Então, os valores médios deX1, X2, . . . , Xn convergem para a esperança comum de Xi emprobabilidade quando n→∞:

∀ε > 0, P

[∣∣∣∣X1 +X2 + . . .+Xn

n− E(X1)

∣∣∣∣ > ε

]−→ 0.

Por exemplo, se µ é a lei de Bernoulli com P [X = 1] = p,éX1, X2, . . . , Xn, . . . é uma sequência das v.a. independentes queseguem a lei µ, então os valores da frequência de dar “coroa”,

X1 +X2 + . . .+Xn

n,

concentram-se ao torno de p = E(Xi) quando n→∞.

Agora estamos prontos para descrever o modelo funda-mental da aprendizagem automática estatística. O domínio Ω éum espaco métrico separável e completo (como, por exemplo,Rd). Um ponto (x, ε) de dados rotulado, onde x ∈ Ω, ε ∈ 0, 1,é modelado por uma variável aleatória (X,Y ) com valores noproduto Ω × 0, 1. Aqui, X ∈ Ω representa um ponto no do-mínio, e Y ∈ 0, 1, o rótulo marcando o ponto. A lei conjuntode (X,Y ) é uma medida de probabilidade, µ, sobre Ω × 0, 1.Agora, o ponto x ∈ Ω é dito instância da v.a. X, e o rótulo ε éuma instância da v.a. Y .

Page 31: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

29

Pode-se mostrar a existência de uma medida de pro-babilidade µΩ sobre Ω, e uma função boreliana η: Ω → 0, 1(chamada a função de regressão), tais que a escolha de (X,Y )

é efetuada como segue: X ∈ Ω é uma variàvel aleatória com alei µΩ, e uma vez que a instância x de X é escolhida, o valorde Y é escolhido lançando a moeda com a probabilidade η(x)

de dar “coroa”. (A maneira de formalizar tudo isso é através daprobabilidade condicional...)

É importante de ressaltar que, mesmo se sempre supo-nhamos que a lei µ existe, ela é sempre desconhecida. Também,as vezes o mesmo ponto x ∈ Ω pode obter rótulos diferentes.

Um classificador é uma função boreliana

T : Ω→ 0, 1.

Dado um classificador, o seu erro de classificação é o valor real

errµ(T ) = P [T (X) 6= Y ]

= µ(x, y) ∈ Ω× 0, 1:T (x) 6= y.

O erro de Bayes é o ínfimo dos erros de classificação de todos osclassificadores possiveis sobre Ω:

`∗ = `∗(µ) = infT

errµ(T ).

Pode-se mostrar que, com efeito, o ínfimo é o mínimo, atingidopelo classificador de Bayes:

Tbayes(x) =

0, se η(x) < 1

2 ,

1, se η(x) ≥ 12 ,

errµ(Tbayes) = `∗(µ).

Page 32: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

30 Capítulo 2. Consistência universal

O significado do classificador de Bayes é puramente teórico, por-que a função de regressão, η, é desconhecida, assim como a leiµ.

Uma regra da aprendizagem é uma aplicação associandoa cada amostra rotulada, σ, um classificador, T . Dado uma amos-tra

σ = (x1, x2, . . . , xn, ε1, ε2, . . . , εn),

a regra produz um classificador, T = Ln(σ), que é uma funçãoboreliana de Ω dentro 0, 1.

De maneira mais formal, podemos dizer que uma regrade aprendizagem é uma família L = (Ln)

∞n=1, onde para cada

n = 0, 1, 2, . . .,

Ln: Ωn × 0, 1n → Ω0,1.

As aplicações associadas de avaliação

Ωn × 0, 1n × Ω 3 (σ, x) 7→ Ln(σ)(x) ∈ 0, 1

devem ser borelianas.

Por exemplo, o classificador k-NN é uma regra de apren-dizagem.

A amostra rotulada (x1, x2, . . . , xn, ε1, . . . , εn) é mode-lada pela sequência (X1, Y1), (X2, Y2), . . . , (Xn, Yn) das variáveisindependentes com valores em Ω×0, 1, seguindo a lei fixa po-rêm desconhecida, µ. Para cada n, a regra de aprendizagem só“vê” os n primeiros pares de variáveis.

A regra de aprendizagem L é chamada consistente seo erro de classificação converge para o erro de Bayes (o menor

Page 33: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

31

possível) em probabilidade quando n→∞:

∀ε > 0, P [errµLn > `∗(µ) + ε]→ 0 quando n→∞.

Porque não conhecemos a lei subjacente, µ, precisamosque a regra de aprendizagem seja consistente para todas as leispossíveis. Isto leva à seguinte definição. A regra L é universal-mente consistente se ela é consistente para cada medida de pro-babilidade µ sobre Ω× 0, 1.

Teorema 2.9 (Stone [25]). Suponha que k = kn →∞ e kn/n→0. Então o classificador k-NN em Rd (com a distância euclide-ana) é universalmente consistente.

O teorema de Stone falha nos espaços métricos maisgerais, mesmo no espaço de Hilbert de dimensão infinita (cf. umexemplo em [4], páginas 351–352, baseado sobre a construção dePreiss [21]).

A prova original de Stone era bastante complexa. Noentanto, vamos delinear a idéia vaga de uma prova alternativa[7], [4], baseada em um resultado importante de análise real.

Teorema 2.10 (Teorema de densidade de Lebesgue–Besico-vitch). Seja µ uma medida de probabilidade boreliana sobre Rd,e f :Rd → [0, 1] uma função boreliana. Então, o valor médio def numa vizinhança de µ-quase todo ponto x, converge para f(x),quando o raio da vizinhança converge para 0:

f(x) = limε↓0

∫Bε(x)

f(t) dµ(t)

µ(Bε(x)),

isso é, o conjunto dos pontos x ∈ Rd onde a igualdade não évalida, tem a µ-medida zero.

Page 34: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

32 Capítulo 2. Consistência universal

Seja x ∈ Ω, e suponha que η(x) ≥ 1/2. Para cada ε > 0

bastante pequeno, estritamente mais de metade dos pontos y dabola Bε(x) tém a propriedade η(y) ≥ 1/2. Em particular, se ké bastante grande e k/n bastante pequeno, então a menor bolaao torno de y que contém exatamente k pontos de uma amos-tra aleatória de n pontos possui esta propriedade: a maioria dospontos y da bola tem η(y) ≥ 1/2. Como os k vizinhos maispróximos de x são elementos aleatórios da bola, segundo a leidos grandes números, a maioria deles possuem a mesma propri-edade (η(y) ≥ 1/2) com alta probabilidade, e o voto majoritárioassociará a x o rótulo 1. Desta maneira, no limite n→∞, o clas-sificador k-NN associará a µ-quase cada ponto x ∈ Ω o mesmorótulo que o classificador de Stone.

Assim, dentro do modelo atual da aprendizagem estatís-tica, o classificador k-NN, com alta confiança, dará uma respostacorreta a longo prazo, quando o tamanho da amostra é bastantegrande.

No próximo capítulo analisamos algumas dificuldadesrelacionadas à dimensão de conjunto de dados.

Page 35: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

33

3 Maldição de dimensionalidade

A dimensão do nosso conjunto de dados para deteçãode intrusos na rede é somente 7. Mas existem os conjuntos dedados de uma dimensão muito maior. Por exemplo, a dimensãodo conjunto Phoneme [20] é 256, é um subconjunto de R256. Umexemplo um pouco extremo é o conjunto de dados do Institutode Cardiologia da Universidade de Ottawa, com o qual nossaequipe de pesquisa está trabalhando. Os pontos de dados são assequências genômicas,

X ⊆ A, T,G,Cd,

onde a “dimensão” d ∼ 870, 000, enquanto a tamanho do con-junto não é muito grande (n ∼ 4, 000, os dados correspondemaos pacientes individuais).

Para d 1, muitos algoritmos conhecidos na ciência dedados muitas vezes levam muito tempo e tornam-se ineficientes.Mesmo em dimensões baixas a médias (tais como 7) os algorit-mos tornam-se menos eficientes que em dimensões 1 ou 2. Então,o que está acontecendo nos domínios de alta dimensão?

Consideremos um domínio, Ω, potencialmente de “altadimensão”, como a esfera euclideana:

Sd = x ∈ Rd+1 | |x| = 1.

Suponhamos que o único meio de estudar o objecto emquestão seja por uma série dos experimentos aleatórios, do se-guinte modo. Cada experimento produz um ponto x ∈ X tirado

Page 36: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

34 Capítulo 3. Maldição de dimensionalidade

de maneira aleatória (cuja a distribução é conforme a medidanatural de X, como o volume), e cada vez podemos registrar osvalores f(x) de funções (quantidades observáveis)

f :X → R

para x. Quanta informação sobre a geometria de X podemosobter desta maneira?

Por exemplo, o que podemos deduzir sobre o diâmetrode X? O diâmetro de X é a quantidade

diamX := supd(x, y) | x, y ∈ X,

onde d(x, y) denota a distância entre x e y. Nesta situação, comoas observáveis f :X → R, é lógico considerar as funções Lipschitzcontínuas com a constante de Lipschitz 1, isso é, as funções quenão aumentam a distância:

∀x, y ∈ X |f(x)− f(y)| ≤ d(x, y).

Eis uma fonte das tais funções.

Exercício 3.1. Seja x0 ∈ X um ponto de X qualquer. Mostrarque a função distância definida por

x 7→ dist(x0, x)

é Lipschitz contínua com a constante 1.

Por conseguinte, obtemos o resultado seguinte.

Exercício 3.2. Mstrar que

diamX = sup |f(x)− f(y)| :x, y ∈ X,

f :X → R e 1-Lipschitz contínua .

Page 37: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

35

Se nós pudéssemos medir os valores de todos as obser-váveis para todos os pares de pontos de X e então escolher osupremo, saberíamos o diâmetro diamX. Mas isto é impossível.Podemos escolher uma observável f , e gerar então a seqüênciamais ou menos longa, mas finita, de pontos aleatórios,

x1, x2, . . . , xN ,

registrando cada vez o valor f(xi), i = 1, 2, 3, . . ..

Depois que produzimos uma série de números reais

f(x1), f(x2), . . . , f(xN ),

calcularemos a diferença máxima

DN =N

maxi,j=1

|f(xi)− f(xj)| .

É imediato que,DN ≤ D,

e o que o valor DN+1 obtenido na etapa seguinte satisfaz

DN ≤ DN+1 ≤ D,

de modo que os valores DN “melhoram” cada vez.

Pararemos o experimento quando a probabilidade demelhorar o valor precedente, DN , se torna demasiado pequena.Mais precisamente, seja κ > 0 (um valor limiar) um número fixomuito pequeno, tal como κ = 10−10 (sugerido por Gromov).

Nós pararemos depois que o número D = DN satisfaz

µx | |f(x)−M | < D > 1− κ,

Page 38: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

36 Capítulo 3. Maldição de dimensionalidade

onde µ é a medida “natural” sobre X. O valor D = DN obtidoda esta maneira chama-se o diâmetro observável de X. Mais pre-cisamente, o diâmetro observável obs-diam κX é definido por

obs-diam κX = infD > 0: para cada observável f sobre X,

µx ∈ X | |f(x)−M | ≥ D ≤ κ.

Ilustraremos o conceito para as esferas euclideanas Sn.Neste experimento, substituímos a reta R com uma “tela” R2,com a projeção coordenada Rd+1 → R2,

(x1, x2, . . . , xd+1)→ (x1, x2),

como a observável. O número dos pontos tirandos N = 1000. Alinha pontilhada representa a projeção da esfera de raio um (ocírculo do raio um), enquanto a linha sólida mostra um círculode tal raio que a probabilidade de um evento de que a projeçãode um ponto aleatório na esfera esteja fora deste círculo é menosdo que κ = 10−10. Em outras palavras, o diâmetro do círculosolido é o diâmetro observável da esfera Sd. Veja as Figuras 11,12 e 13.

É possível provar que o diâmetro observável da esferasatisfaz

obs-diam κ(Sd) = O

(1√d

)para cada valor limiar κ > 0. Em outras palavras, assintotica-mente, o diametro observável da esfera Sn é de ordem 1/

√d.

Come o diâmetro atual da esfera Sd é 2, uma esfera daalta dimensão aparece como um “cometa” formado de um “nú-

Page 39: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

37

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

Figura 11 – S2 e S10

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

Figura 12 – S30 e S100

cleo” muito pequeno e um “envoltório gasoso” de grande tamanhoe de densidade baixa. (Figura 14).

Esta observação é típica de outros objetos geométricosda alta dimensão. Por exemplo, é possível mostrar que o diâme-tro observável do cubo unitário,

Id = x ∈ Rd | ∀i = 1, . . . , d, 0 ≤ |xi| ≤ 1,

Page 40: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

38 Capítulo 3. Maldição de dimensionalidade

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

Figura 13 – S500 e S2500

X

fR

obs−diam X

Figura 14 – O diâmetro observável de um espaço da alta dimen-são.

satisfaz

obs-diam κ(Id) = O (1) .

Isso é, assintoticalemte obs-diam κ(Id) é constante. Ao mesmotempo,

diam (Id) =√d.

Page 41: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

39

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1−0.6

−0.4

−0.2

0

0.2

0.4

0.6

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

Figura 15 – Projeções do cubo Id e dos 1, 000 pontos aleatóriosno cubo sobre um plano aleatório, d = 3, 4.

−1.5 −1 −0.5 0 0.5 1 1.5−1.5

−1

−0.5

0

0.5

1

1.5

−1.5 −1 −0.5 0 0.5 1 1.5−1.5

−1

−0.5

0

0.5

1

1.5

Figura 16 – O mesmo, d = 5, 10.

Com efeito, em dimenções altas a projeção ortogonaldo cubo Id com seus N = 1000 pontos aleatórios na direção deum plano aleatório assemelha-se fortemente à projeção da esfera.Veja as Figuras 15, 16, e 18.

A dependência do diâmetro observável no valor limiarκ não é muito sensível (somente logarítmica).

Page 42: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

40 Capítulo 3. Maldição de dimensionalidade

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

−5 −4 −3 −2 −1 0 1 2 3 4 5−4

−3

−2

−1

0

1

2

3

4

Figura 17 – O mesmo, d = 20, 100.

−8 −6 −4 −2 0 2 4 6 8−8

−6

−4

−2

0

2

4

6

8

−15 −10 −5 0 5 10 15−15

−10

−5

0

5

10

15

Figura 18 – O mesmo, d = 300, 1000.

O fenômeno de concentração de medida sobre as estru-turas de alta dimensão pode ser exprimido de seguinte maneirainformal:

O diâmetro observável de um objeto geométrico dealta dimensão é tipicamente demasiado pequeno com-parado ao diâmetro atual:

obs-diam (X) diam (X).

Page 43: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

41

0 0.5 1 1.50

5

10

15

20

25

30

35

0 0.5 1 1.5 2 2.50

5

10

15

20

25

30

35

40

45

50

Figura 19 – Distribução das distâncias entre 10, 000 pontos ale-atórios do cubo Id, d = 3, 10.

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

10

20

30

40

50

60

70

80

90

100

0 2 4 6 8 10 12 140

50

100

150

200

250

Figura 20 – O mesmo, d = 100, 1000.

A formulação mais precisa usa a noção do tamanho ca-racterístico deX em vez do diâmetro. Sobre um espaço de grandedimensão, os valores da distância d(x, y) tipicamente concentramem torno da experança da distância, ou do tamanho caracterís-tico de X,

charSize (X) = Eµ⊗µ(d(x, y)).

Veja as Figuras 19 e 20 pelo cubo Id.

Page 44: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

42 Capítulo 3. Maldição de dimensionalidade

Por exemplo, o tamanho caractéristico da esfera é, as-sintoticamente, O(1):

charSize (Sn)→√

2 quando n→∞.

O fenômeno de concentração de medida na forma maisexata diz o que

Diâmetro observável tamanho característico.

O fenômeno de concentração da medida é o assunto deestudo de uma disciplina matemática relativamente nova: a aná-lise geométrica assintótica. Esta introspeção na geometria dosobjectos de dimensão alta é a mais importante, e tem muitasaplicações e conseqüências amplas em ciências matemáticas.

O que o fenômeno significa no contexto concreto declassificador k-NN? Eis uma reformulação heurística equivalente(embora não evidente) do fenômeno:

Tipicamente, num espaço Ω de grande dimensão, paracada subconjunto A ⊆ Ω que contém pelo menos ametade dos pontos, a maior parte dos pontos de Ω

estão próximos ao A.

Formalizamos a noção de uma “estrutura”. Seja Ω =

(Ω, ρ, µ) um espaço métrico, munido de uma medida de proba-bilidade µ. Consideremos 4 exemplos.

(1) Seja d ∈ N. O cubo de Hamming de dimensão d é acoleção de seqüências de d digitos 0−1 (palavras binárias de com-primento d). Designamos-o 0, 1d ou Σd. Assim, um elemento

Page 45: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

43

típico σ ∈ Σd é da forma

σ = σ1σ2 · · ·σd,

ou σi ∈ 0, 1 para todo i. A distância de Hamming normalizadaentre duas n-palavras σ, τ ∈ Σd é definida para

d(σ, τ) =1

d]i:σi 6= τi.

Seja A um subconjuinto qualquer de Σd. O valor da medidauniforme normalizada de A é dada por

µ](A) =|A|2d.

(2) A esfera euclideana unitária Sd admite duas métricaspadrão: a distância euclideana induzida de `2(d+ 1),

deucl(x, y) = ‖x− y ‖2,

e a distância geodésica, em outros termos, o ângulo entre doisvetores:

dgeo(x, y) = ∠(x, y).

As duas distâncias são equivalentes: qualquer que sejam x, y ∈Sd, temos

deucl(x, y) ≤ dgeo(x, y) ≤ π

2deucl(x, y),

e no caso onde dgeo(x, y) ≤ π/2, temos

deucl(x, y) ≤ dgeo(x, y) ≤ π

2√

2deucl(x, y). (3.1)

O grupo ortogonal

O(d) = u ∈Md(R):utu = uut = 1

Page 46: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

44 Capítulo 3. Maldição de dimensionalidade

age sobre a esfera pelas isometrias

Sd 3 x 7→ ux ∈ Sd, u ∈ O(d).

Existe uma única medida de probabilidade boreliana ν = νd

sobre Sd invariante sobre isometrias, isto é, tal que

νd(A) = νd(uA) para toda u ∈ O(d).

A medida ν chama-se a medida de Haar. Se λd denota a me-dida de Lebesgue no espaço Rd, então para cada sub-conjuntoboreleano A ⊆ Sd temos

νd(A) =λd+1(A)

λd+1(Bd+1),

onde A é o cone sobre A:

A = ta: t ∈ [0, 1], a ∈ A

e Bd é a bola fechada do raio um no espaço euclideano `2(d).

(3) Os espaço euclideano Rd munido da medida gaussi-ana γd.

(4) O cubo [0, 1]d munido da medida uniforme.

Denotaremos

Aε = x ∈ Ω:∃a ∈ A ρ(x, a) < ε

a ε-vizinhança do sub-conjunto A de Ω.

Definicão 3.3. Seja (Ωd, ρd, µd), d = 1, 2, 3, . . . uma famíliade espaços métricos munidos de uma medida de probabilidadeboreleana (espaços métricos com medida). Esta família é uma

Page 47: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

45

família de Lévy se, para cada família Ad, d = 1, 2, . . ., de sub-conjuntos boreleanos de Ωd, tais que

lim inf µd(Ad) > 0,

e por cado ε > 0, temos

µd((Ad)ε)→ 1.

As famílias “naturais” dos espaços métricos com medidasão tipicamente as famílias de Lévy. Tais são os exemplos em(1) (o resultado é conhecido na teoria de informação como o“Blowing-Up Lemma”) e (2) (Paul Lévy, 1922). Os espaços em (3)e (4) não formam as famílias de Lévy, mas eles transformam-seem famílias de Lévy após uma renormalização pelo fator inversoao tamanho caraterístico. O tamanho caraterítico de (Rd, γd)e de [0, 1]d com a medida uniforme é do ordem O(

√d), e se

a distância nestes espaços é multiplicada pelo fator 1/√d, as

famílias resultantes são as de Lévy.

Um instrumento conveniente para quantificar o fenó-meno da concentração de medida é a função de concentração.

Definicão 3.4. Seja (Ω, d, µ) um espaço métrico com medida.A função de concentração de Ω, notada αΩ(ε), é definida pelascondições seguintes:

α(ε) =

12 , se ε = 0,1−min

µ] (Aε) :A ⊆ Σn, µ](A) ≥ 1

2

, se ε > 0.

Exercício 3.5. Mostrar que

α(Ω, ε)→ 0 quando ε→∞.

Page 48: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

46 Capítulo 3. Maldição de dimensionalidade

Ω−Α

ε

εA

at least half ofall points

bounds µ(X\Aε )from above

containsΑ

α( ε)Ω,

Ω

Figura 21 – A função de concentração α(Ω, ε).

Teorema 3.6. Uma família (Ωd, ρd, µd) é uma família de Lévyse e apenas se as funções de concentração tendem a zero:

α(Ωd, ε)→ 0 para cada ε > 0.

Definicão 3.7. Uma família de Lévy (Ωd, dd, µd) é chamadauma família de Lévy normal se existem C1, C2 > 0 tais que

α(Ωd, ε) ≤ C1e−C2ε

2d.

Teorema 3.8. Por a função de concentração do cubo de Ham-ming Σd temos

αΣd(ε) ≤ 2e−ε2d/2.

Aqui está a ligação com o diâmetro observável: sobreuma estrutura de grande dimensão, toda função Lipschitz contí-nua é quasi constante em toda parte exceto sobre um conjuntoda medida muito pequena.

Page 49: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

47

0

0.1

0.2

0.3

0.4

0.5

0 0.1 0.2 0.3 0.4 0.5

Concentration function of Hamming cubes, n = 11, 101, 1001

n = 11n = 101

n = 1001

Figura 22 – As funçãos de concentração dos cubos de Hammingpor d = 11, 101, 1001.

0

0.2

0.4

0.6

0.8

1

0 0.05 0.1 0.15 0.2

Concentration function versus Chernoff’s bound, n = 101

Concentration functionChernoff bound

Figura 23 – Função de concentração do cubo de Hamming Σ101 ea cota superior gaussiana de Chernoff para os valorespequenos de ε

Page 50: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

48 Capítulo 3. Maldição de dimensionalidade

Relembramos que um número real M = Mf é dito umvalor mediano de uma função boreliana f , sobre um espaço commedida de probabilidade (Ω, µ) se

µx ∈ Ω: f(x) ≥M ≥ 1

2e µx ∈ Ω: f(x) ≤M ≥ 1

2.

Um valor mediano M = Mf existe sempre, mas geralmente, nãoé único.

Exercício 3.9. Seja f uma função Lipschitz contínua com aconstante de Lipschitz L ≥ 0 sobre um espaço métrico com me-dida, (Ω, ρ, µ). Provar que

µ|f(x)−M | > ε ≤ 2αΩ

( εL

).

Mais geralmente, se f é uniformemente contínua de tal modoque

∀x, y ∈ X, d(x, y) < δ ⇒ |fx− fy| < ε,

entãoµ|f(x)−M | > ε ≤ 2αX(δ).

N

Exercício 3.10. Deduzir a lei dos grandes números do teorema3.8, aplicando o exercício 3.9 à função real

f(σ) =1

d

d∑i=1

σi

sobre o cubo de Hamming. (É por isso que o teorema 3.8 é asvezes chamado o lei geométrica dos grandes números.)

A função da distância d(−, p) de um ponto p fixo qual-quer é Lipschitz contínua (com a constante 1), e em domínios

Page 51: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

49

de dimensão alta uma tal função concentra-se em torno do valormediano. Este efeito pronuncia-se já em dimensões médias, taiscomo d = 14 na Figura 24.

normalized distance to a pivot

Freq

uenc

y

0.0 0.5 1.0 1.5 2.0

020

0060

0010

000

Figura 24 – Histograma das distâncias a um ponto escolhidoaleatoriamente em um conjnto de dados X com n =105 points, tirados de uma distribuição gaussianaem R14.

Em consequncia, a distância média E(εNN ) de um pontodo domínio ao seu vizinho mais próximo na amostra aleatória équase igual ao tamanho cataterístico do domínio (isso é, a dis-tância média entre dois pontos do domínio), quando a dimensãod vai para o infinito, desde que o tamanho da amostra, n, crescede maneira subexponencial em d (o que é sempre o caso). Veja

Page 52: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

50 Capítulo 3. Maldição de dimensionalidade

Figura 25.

0 20 40 60 80 100

0.0

0.2

0.4

0.6

0.8

euclidean dimension d

aver

age

dist

ance

to th

e ne

ares

t nei

ghbo

ur (n

orm

aliz

ed)

n=1,000n=100,000

Figura 25 – A relação entre a distância média para o vizinhomais próximo e o tamanho caraterístico em um con-junto de n pontos tirados aleatoriamente de umadistribuição gaussiana em Rd.

Também, na Figura 24, as linhas verticais marcam adistância média normalizada 1 ± εNN , onde εNN é a distânciamédia do vizinho mais próximo.

Isso é conhecido na ciência de dados como o paradoxode espaço vazio. Este paradóxo tem uma consequência imedi-ata para o classificador k-NN. Seja x ∈ Ω um ponto qualquer.Denotameros εNN (x) a distância de x para o seu vizinho mais

Page 53: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

51

próximo na amostra aleatória, X. Na consequência do paradoxode espaço vazio, uma grande quantidade de pontos de X estãoquase a mesma distância de x que o seu vizinho mais próximo.Mais formalmente, seja c > 0, e dizemos, seguindo [2], que aconsulta de vizinho mais próximo de x é c-instável se a bola doraio (1 + c)εNN (x) centrada em x contém pelo menos metadedos pontos de X. (Figura 26.)

Ω

qr

r(1+ε)

Figura 26 – Instavilidade da busca do vizinho mais próximo.

Usando a concentração da medida, não é difícil de mons-trar que, pelo c > 0 fixo, no limite d→∞ a maioria das buscasserão c-instáveis.

Nas dimensões baixas, o fenômeno está fraco (Figura 27,a esquerda, o conjunto de dados Segment da UCI data repository[27]), mas nas dimensões médias, é já pronunciado (Figura 27,a direita, o subconjunto aleatório da distribuição gaussiana emR14). Aqui, k = 20 e c = 0, 5. A linha esquerda vertical corres-ponde ao valor médio do raio da bola que contém k vizinhos maispróximos, εk-NN, e a segunda linha corresponde a (1 + c)εk-NN.Para o conjunto Segment, a segunda bola contém em média 60

pontos. Para o gaussiano, o valor correspondente já é de 1, 742

pontos.

O fenômeno da instabilidade significa uma perda ób-

Page 54: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

52 Capítulo 3. Maldição de dimensionalidade

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

NN distribution function, UCI repository Segment dataset

NN distance

cu

mu

lative

pro

ba

bili

ty

k=20

c=0.5; k=60

0 2 4 6 8

0.0

0.2

0.4

0.6

0.8

1.0

NN distribution, 100000 pts in gaussian d=14

NN distancecu

mu

lative

pro

ba

bili

ty

k=20

c=0.5; k=1742

Figura 27 – A fração média dos pontos de dados nas bolas deraio (1 + c)εk-NN.

via da importância do fato de ser o vizinho mais próximo. Porexemplo, no caso de um erro quase inevitável de recuperaçãodo vizinho mais próximo exato, o rótulo do vizinho substituidoserá mais ou menos aleatório. O desempenho do classificador k-NN (e de qualquer outro algoritmo baseado nos vizinhos maispróximos) degrada especialmente em dimensões altas, mas tam-bém em dimensões médias, mesmo se não tão notóriamente. Nopróximo capítulo, vamos discutir algumas receitas contra essamaldição da dimensionalidade.

Entre os livros tratando o fenômeno de concentração demedida, [17] é o mais acessível, [13] o mais abrangente e [10]contém uma riqueza de idéias.

Page 55: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

53

4 Redução de dimensionalidade

Seja Ω um domínio, contendo uma amostra σ. Reduçãode dimensionalidade significa escolhendo uma função f : Ω→W

de Ω para um domínio W de dimensão mais baixa. A fim declassificar um ponto de dados x ∈ Ω, vamos aplicar um algo-ritmo de classificação no espaço W ao ponto f(x) e a amostraf(σ), esperando que o desempenho do algoritmo emW seja maiseficaz, e que a função f conserve a estrutura geral e os padrõespresentes no conjunto de dados X. Existem muitas métodos daredução de dimensionalidade.

1

++

+

+

+

+ + ++

+

−−

− − −

−−

f

dominio de dimensao alta

dominio de dimensao baixa

classificador

0

Figura 28 – Redução de dimenionalidade

4.1 PCA (Principal Component Analysis)

Este algoritmo padrão é o mais antigo e provavelmenteo mais comum na ciência de dados. Aqui, entre as coordenadas

Page 56: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

54 Capítulo 4. Redução de dimensionalidade

(caraterísticas) do espaço Ω = Rd, escolhemos as coordenadasmais importantes do ponto de visto da geometria do conjuntode dados. O algoritmo PCA foi implementado em R.

Exercício 4.1. Estudar o algoritmo PCA [23, 3] e aplicar aoconjunto de dados Phoneme, seguido pelo classificador k-NNnum espaço de uma dimensão menor. Conseguiu melhorar a pre-cisão?

4.2 Projeções aleatórias (Lema de Johnson–Lindenstrauss)

Este método relativamente recente é uma aplicação daconcentração de medida.

Theorem 4.2 (Lema de Johnson–Lindenstrauss [11]). Seja Xum sub-conjunto com n elementos num espaço de Hilbert H, eseja 0 < ε ≤ 1. Então existe um operador linear T :H → `2(k),onde

k = O(ε−2 log n),

tal que

(1− ε)‖x− y ‖ < ‖T (x)− T (y) ‖ < (1 + ε)‖x− y ‖

para todos x, y ∈ X.

Obviamente, sem perda de generalidade, podemos suporque dimH = n. A dimensião do espaço reduzido, `2(k), é loga-rítmica em n. Por exemplo, se n ≥ 158, então pode-se mostrarque a dimensão k satisfaz

k ≤⌈

17 log n

ε2

⌉.

(Claro, os limites podem ser melhoradas).

Page 57: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

4.3. Redução de dimensionalidade usando injeções borelianas 55

Temos uma consequância particularmente interessantedo resultado. Se um espaço de Hilbert, H, contém um sistemaortonormal de n vetores, então, claro, sua dimensão deve serpelo menos n. No entanto, chamamos um sistema de vetores denorma 1 ε-quase ortonormal se o ângulo entre quaisquer doisvetores distintos é π/2 ± ε. O resultado acima implica a exis-tência de sistemas quase ortonormais de vetores cujo tamanho éexponencial na dimensão do espaço de Hilbert.

Como escolher o operador T? Se dimH = n, então T édado por uma matriz do tamanho k×n. Uma coisa interessanteque torna o lema de Johnson–Lindenstrauss altamente aplicá-vel na prática de computação, é que os coefficientes da matrizde T podem ser escolhidos aleatoriamente, como uma sequên-cia dos reais independentes identicamente distribuidos, seguindo,por exemplo, a distribuição gaussiana, ou mesmo a distribuiçãode Bernoulli. As duas boas referências são os livros [15] e [29].

Exercício 4.3. Imprementar o algoritmo dos projeções aleató-rias em R e aplicar ao conjunto de dados Phoneme, combinandocom o classificador k-NN.

4.3 Redução de dimensionalidade usando injeções bore-lianas

Conceitos básicos de teoria descritiva dos conjuntos [12]oferecem uma nova abordagem para a redução de dimensionali-dade no contexto da aprendizagem automática estatística, suge-rido em [19] e aplicada com sucesso na competição CDMC’2013pela equipe consistente do ministrante e de três alunos: GaëlGiordano, Hubert Duan, e Stan Hatko.

Page 58: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

56 Capítulo 4. Redução de dimensionalidade

Geralmente assumimos que as aplicações f que reali-zam a redução de dimensionalidade são contínuas, até mesmoLipschitz contínuas. Esta é uma condição muito restritiva. Noentanto, examinando o modelo teórico existente que estabeleceuma base para a aprendizagem estatística, pode notar-se queo teorema de Stone é na verdade insensía estrutura euclidiana(ou seja, estrutura métrica ou mesmo topológica) no domínio,enquanto a estrutura boreliana permanece intacta. Isto permite,através de um isomorfismo boreliano (o mesmo uma injeção bo-reliana), reduzir os dados para um caso de baixa dimensão, atémesmo unidimensional, após o qual o algoritmo k-NN continuaa ser universalmente consistente.

Definicão 4.4. A sigma-álgebra de subconjuntos de um con-junto Ω é uma família (não vazia) A ⊆ 2Ω com as propriedades:

1. Se A1, A2, . . . , An, . . . pertençam a A , então ∪∞i=1Ai ∈ A .

2. Se A ∈ A , então Ω \A ∈ A .

Um conjunto Ω munido de uma sigma-álgebra se chamaum espaço mensurável. Se Ω é um espaço métrico, denotaremosBX a menor sigma-álgebra que contém todos as abertas de Ω.Esta sigma-álgebra BX é a estrutura boreliana de Ω, e os elemen-tos de BX são os conjuntos borelianos. Se o espaço métrico Ω éseparável e completo, sua estrutura boreliana é dita estrutura bo-reliana padrão, e o espaço mensurável (Ω,BX) é dito um espacoboreliano padrão. Neste caso, a estruture boreliana é gerada portodas as bolas abertas Br(x), x ∈ Ω, r > 0.

Uma aplicação f : Ω → W entre dois espacos borelia-nos é dita isomorfismo boreliano se f é bijetiva, e f e f−1 são

Page 59: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

4.3. Redução de dimensionalidade usando injeções borelianas 57

borelianas. Isso significa que f estabelece uma bijeição entre aestrutura boreliana BΩ e BW .

Cada aplicação contínua é boreliano, e cada homeomor-fismo (isso é, uma bijeição contínua, com o inverso contínuo) éum isomorfismo boreliano. Mas existem muito mais aplicaçõesborelianas que aplicações contínuas, e muito mais isomorfismosbolerianos que homeomorfismos.

Por exemplo, é bem conhecido e facilmente mostradoque como espaços topológicos, o intervalo [0, 1] e o quadrado[0, 1]2 não são homeomorfos. Ainda mais, não há nenhum inje-ção contínua de [0, 1]2 para [0, 1]. Ao mesmo tempo, existe umainjeção boreliana do quadrado no intervalo. Ela pode ser obtidousando o “entrelaçamento” dos digitos nas expansões binárias dex e de y num par (x, y) ∈ [0, 1]2 (sujeito as precauções habituaissobre as seqüências infinitas de uns):

[0, 1]2 3 (0.a1a2 . . . , 0.b1b2 . . .) 7→ (0.a1b1a2b2 . . .) ∈ [0, 1]. (4.1)

....

..........

Figura 29 – Construindo um isomorfismo boreliano entre o qua-drado e um intervalo.

Page 60: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

58 Capítulo 4. Redução de dimensionalidade

Por uma representação geométrica desta injeção, veja afigura 29. A aplicação f acima não é surjetiva, por exemplo oponto 0.10101010 . . . não é na imagem de f . Mas ela pode sermodificada a fim de obter um isomorfismo boreliano entre [0, 1]2

e [0, 1]. No lugar da base 2, pode ser uma base qualquer.

Esta construção pode ser generalizada para mostrar quenão há muita diversidade entre os espaços borelianos padrão. Eisum resultado clássico.

Teorema 4.5. Sejam Ω e W dois espaços métricos separáveise completos, da cardinalidade c = 2ℵ0 cadaum. (Por exemplo,isso é o caso se eles não contém os pontos isolados). Então osespaços borelianos correspondentes são isomorfos.

Este será o caso da maioria dos domínios de interesse nateoria. Por exemplo, o conjunto de Cantor, o intervalo unitário, oespaço euclidiano Rd, o espaço de Hilbert separável de dimensãoinfinita `2, e na verdade todos espaços de Fréchet separáveis nãotriviais são todos isomorfos entre eles como espaços borelianos.Sua estrutura de Borel é a mesma do espaco de Borel padrãocom cardinalidade de contínuo.

Agora, seja (Ω,B) um espaço boreliano padrão (um do-mínio), e seja µ uma medida de probabilidade sobre Ω× 0, 1,isso é, uma aplicação

µ: BΩ×0,1 → [0, 1],

satisfando as propriedades (P1) e (P2) acima.

Se π é a projeição de Ω × 0, 1 pela primeira coorde-nada,

π(x, ε) = x,

Page 61: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

4.3. Redução de dimensionalidade usando injeções borelianas 59

então a imagem direita da medida µ é uma medida de probabi-lidade, ν, sobre Ω: se A é um conjunto boreliano em Ω,

ν(A) = µ(π−1(A)).

1

Ω

Ω

Ω

Ω

π

x 1

x 0

x 0,1

0

Figura 30 – π: Ω× 0, 1 → Ω

A função de regressão, η, é definida pelas condições: seA ⊆ Ω, então

µ(A× 1) =

∫A

η(x) dµ(x),

µ(A× 0) =

∫A

(1− η(x)) dµ(x).

Relembramos que o classificador de Bayes (um classi-ficador cujo erro de classificação é o mínimo possivel) é dadopor

Tbayes(x) =

0, se η(x) < 1

2 ,

1, se η(x) ≥ 12 .

(Veja Figura 31).

Page 62: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

60 Capítulo 4. Redução de dimensionalidade

bayes

0

1

1/2

Ω

η

grafo doclassificadorT

Figura 31 – Função de regressão η e o classificador de BayesTbayes.

Seja W um outro espaço métrico, e seja f : Ω→W umainjeção boreliana. Esta f pode ser prolongada até uma injeçãoboreliana de Ω× 0, 1 em W × 0, 1 pela formula óbvia:

f(x, ε) = (f(x), ε),

onde ε ∈ 0, 1. Vamos usar a mesma letra f pela prolongação.Definiremos a imagem direita f∗µ da medida µ ao longo de f :qual quer seja um boreliano B ⊆W × 0, 1,

(f∗µ)(B) = µ(f−1(B)).

É uma medida de probabilidade borealiana sobre W × 0, 1.

Pode-se mostrar sem dificuldade que si

X1, X2, . . . , Xn, . . .

é uma sequência das variáveis aleatórias independentes com va-lores em Ω× 0, 1 segundo a lei µ, então

f(X1), f(X2), . . . , f(Xn), . . .

Page 63: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

4.3. Redução de dimensionalidade usando injeções borelianas 61

é uma sequência das variáveis aleatórias independentes com va-lores em W × 0, 1 seguindo a lei f∗(µ).

A medida f∗(µ) sobre W × 0, 1 possui sua própriafunção de regressão, θ. Não é difícil de verificar que, com efeito,

η = θ f.

Por consequinte, o classificador de Bayes (“o melhor classificadorimaginável”) para Ω, TΩ

bayes, e o classificador de Bayes para W ,TWbayes, satisfazem:

∀x ∈ Ω, TΩbayes(x) = TWbayes(f(x)).

Suponha agora que L é um classificador universalmenteconsistente qualquer no domínio W . Definiremos um novo clas-sificador, Lf , como a composisão de L com a injeção borelianaf :

Lfn(σ)(x) = Ln(f(σ))(f(x)).

(Como na Figura 28).

Quando n → ∞, os predições do classificador L(f(σ))

no ponto f(x), x ∈ Ω aproximam-se das predições do classifica-dor de Bayes emW no ponto f(x). Por conseguinte, as prediçõesdo classificador “composto”, Lf (σ), aproximam-se das prediçõesdo classificador de Bayes em Ω no ponto x. Isso significa que Lf

é universalmente consistente no domínio Ω. O isomorfismo f éuma redução de dimensionalidade que conserva a consistênciauniversal dos algoritmos de aprendizagem supervisionada.

Obtemos o seguinte resultado, que oferece uma novaperspectiva da redução de dimensionalidade em teoria da apren-dizagem automática estatística.

Page 64: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

62 Capítulo 4. Redução de dimensionalidade

Theorem 4.6. Sejam Ω e W dois domínios (espaços borelianospadrão), e seja f : Ω → W uma injeção boreliana. Seja L é umclassificador universalmente consistente em W . Então o classifi-cador Lf , obtido pela redução de dimensionalidade f de Ω paraW , seguida da aplicação do classificador L, é universalmenteconsistente em Ω também.

Em particular, há sempre uma redução de Borel isomór-fica do problema em Rd (ou mesmo num espaço de dimensãoinfinita) para o caso d = 1. As experiências até agora mostramque os melhores resultados são obtidos quando a dimensão é re-duzida por um fator constante (por exemplo, entre 4 e 7), quedepende do conjunto de dados.

A redução de dimensionalidade Borel isomórfica foi usadacom sucesso na competição CDMC’2013, onde o erro de clas-sificação pelo problema de deteção de intrusos numa rede foireduzido até 0.1 por cento.

Exercício 4.7. Escrever o código em R para redução de dimen-sionalidade usando as injeções borelianas, e combinar-o com oclassificador k-NN para melhorar o erro de classificação no pro-blema do reconhecimento de voz (o conjunto de dados Phoneme).Tentar as bases diferentes de expansão dos números.

Leitura sugerida

Boas fontes teóricas para alunos de matemática dispos-tos para aprender o assunto são [1, 8, 16, 28, 30], combinadoscom a programação prática, por exemplo, após as linhas de [26].

Page 65: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

4.3. Redução de dimensionalidade usando injeções borelianas 63

Agradecimentos

Sou grato aos membros da equipe CDMC’2013, particu-larmente Stan Hatko avec quem trabalhavam sobre a deteção deintrusos atraves da redução Borel isomórfica, e a Professora Ma-ria Inez Cardoso Gonçalvez, por sua ajuda com meu Portuguêsruim.

Page 66: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.
Page 67: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

65

Referências

[1] Martin Anthony and Peter Bartlett, Neural network lear-ning: theoretical foundations, Cambridge University Press,Cambridge, 1999. xiv+389 pp. ISBN: 0-521-57353-X

[2] K. Beyer, J. Goldstein, R. Ramakrishnan, and U. Shaft,When is “nearest neighbor” meaningful?, in: Proc. 7-th In-tern. Conf. on Database Theory (ICDT-99), Jerusalem, pp.217–235, 1999.

[3] Ed Boone, PCA in R,http://www.youtube.com/watch?v=Heh7Nv4qimU

[4] F. Cérou and A. Guyader, Nearest neighbor classification ininfinite dimension, ESAIM Probab. Stat. 10 (2006), 340–355.

[5] M.J. Crawley, The R Book,http://users.humboldt.edu/ygkim/CrawleyMJ_TheRBook.pdf

[6] DARPA Intrusion Detection Data Sets, MIT Lincoln Lab,http://www.ll.mit.edu/mission/communications/cyber/

CSTcorpora/ideval/data/

[7] L. Devroye, On the almost everywhere convergence of non-parametric regression function estimates, Ann. Statist. 9(1981), 1310–1319.

[8] Luc Devroye, László Györfi and Gábor Lugosi, A Probabi-listic Theory of Pattern Recognition, Springer-Verlag, NewYork, 1996. ISBN 0-387-94618-7.

Page 68: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

66 Referências

[9] FNN (Fast Nearest Neighbor Search Algo-rithms and Applications) package, http://cran.r-project.org/web/packages/FNN/FNN.pdf

[10] M. Gromov, Metric Structures for Riemannian andNon-Riemannian Spaces, Progress in Mathematics 152,Birkhauser Verlag, 1999.

[11] W.B. Johnson and J. Lindenstrauss, Extensions of Lipschitzmappings into a Hilbert space, Contemp. Math. 26 (1984),189–206.

[12] A.S. Kechris, Classical Descriptive Set Theory, Springer-Verlag, 1995.

[13] M. Ledoux, The concentration of measure phenomenon.Math. Surveys and Monographs, 89, Amer. Math. Soc.,2001.

[14] J.H. Maindonald, Using R for Data Analysis and Graphics.Introduction, Code and Commentary, http://cran.r-project.org/doc/contrib/usingR.pdf

[15] J. Matoušek, On variants of the Johnson-Lindenstrausslemma, Random Structures Algorithms 33 (2008), 142–156.

[16] Shahar Mendelson, A few notes on statistical learning the-ory, In: Advanced Lectures in Machine Learning, (S. Men-delson, A.J. Smola Eds), LNCS 2600, pp. 1-40, Springer2003.

[17] V.D. Milman and G. Schechtman, Asymptotic theory offinite-dimensional normed spaces (with an Appendix by M.Gromov), Lecture Notes in Math., 1200, Springer, 1986.

Page 69: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

Referências 67

[18] W.J. Owen, The R guide, http://cran.r-project.org/doc/contrib/Owen-TheRGuide.pdf

[19] V. Pestov, Is the k-NN classifier in high dimensions affectedby the curse of dimensionality? Computers & Mathematicswith Applications 65 (2013), 1427–1437.

[20] Phoneme dataset,http://statweb.stanford.edu/∼tibs/ElemStatLearn/datasets/

phoneme.data

[21] D. Preiss, Gaussian measures and the density theorem,Comment. Math. Univ. Carolin. 22 (1981), 181–193.

[22] The R project for statistical computing,http://www.r-project.org/

[23] L.I. Smith, A tutorial on Principal Component Analysis,

http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf

[24] J. Song, H. Takakura and Y. Kwon, A Generalized Fea-ture Extraction Scheme to Detect 0-Day Attacks via IDSAlerts, in: The 2008 Inter. Symposium on Applications andthe Internet (SAINT2008), IEEE CS Press, 51–56, Turku,FINLAND, 28 July - 1 Aug. 2008.

[25] C. Stone, Consistent nonparametric regression, Annals ofStatistics 5 (1977), 595–645.

[26] Luis Torgo, Data Mining with R: Learning with Case Stu-dies, Chapman & Hall/SRC, 2010.

[27] UCI Machine Learning Data Set Repository,http://archive.ics.uci.edu/ml/

Page 70: Métodos Matemáticos na Ciência de Dados: Introdução Relâmpagomtm.ufsc.br/coloquiosul/notas_minicurso_8.pdf · 7 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Figura3–Amostrarotulada.

68 Referências

[28] Vladimir N. Vapnik, Statistical learning theory, John Wiley& Sons, Inc., New York, 1998.

[29] S.S. Vempala, The random projection method, DIMACS Se-ries in Discrete Mathematics and Theoretical Computer Sci-ence, 65. American Mathematical Society, Providence, RI,2004.

[30] M. Vidyasagar, Learning and Generalization, with Applica-tions to Neural Networks, 2nd Ed., Springer-Verlag, 2003.