Aprendizado Semi-Supervisionado em Redes Complexas Fabricio Breve ICMC – USP.

52
Aprendizado Semi- Supervisionado em Redes Complexas Fabricio Breve ICMC – USP

Transcript of Aprendizado Semi-Supervisionado em Redes Complexas Fabricio Breve ICMC – USP.

  • Slide 1
  • Aprendizado Semi-Supervisionado em Redes Complexas Fabricio Breve ICMC USP
  • Slide 2
  • Contedo Introduo Aprendizado Semi-Supervisionado Classes de Algoritmos Modelos Baseados em Grafos Construo do Grafo Mtodos Iterativos Regularizao Modelo de Partculas
  • Slide 3
  • Introduo Redes a serem analisadas esto se tornando cada vez maiores Internet World Wide Web (WWW) Sistemas de telecomunicaes Redes de energia eltrica Redes sociais Redes de trfego Redes biolgicas Redes neurais Redes de interao entre protenas
  • Slide 4
  • Introduo Freqentemente o processo de rotular dados : Caro Demorado Requer o trabalho de um especialista humano Conseqncia: Em muitas situaes, apenas um pequeno subconjunto de itens pode ser rotulado
  • Slide 5
  • Introduo Aprendizado Supervisionado Apenas amostras rotuladas so usadas para o treinamento Aprendizado No Supervisionado Todas as amostras so no rotuladas Aprendizado Semi-Supervisionado Combina uma pequena quantidade de amostras rotuladas com um grande nmero de amostras no rotuladas para produzir melhores classificadores
  • Slide 6
  • Aprendizado Semi-Supervisionado Tipicamente o conjunto de dados X pode ser dividido em duas partes: X l = (x 1,..., x l ), para qual os rtulos Y l = (y 1,..., y l ) so fornecidos X u = (x l+1,...,x l+u ), para qual os rtulos so desconhecidos
  • Slide 7
  • Aprendizado Semi-Supervisionado Quando funciona? Comparando com um algoritmo supervisionado que usa apenas dados rotulados, podemos esperar melhores resultados considerando as amostras no rotuladas? Sim, desde que a distribuio dos dados (a ser revelada) seja relevante para o problema de classificao.
  • Slide 8
  • Aprendizado Semi-Supervisionado Para funcionar algumas hipteses precisam ser verdadeiras Hiptese da suavidade Se dois pontos x 1,x 2 em uma regio de alta- densidade esto prximos, ento suas sadas y 1, y 2 tambm devero ser prximas. Hiptese de cluster Se dois pontos esto no mesmo cluster, ento provavelmente eles so da mesma classe. No implica que cada classe apenas um cluster Pode ser considerado um caso especial da hiptese da suavidade
  • Slide 9
  • Aprendizado Semi-Supervisionado Algumas aplicaes prticas: Em reconhecimento de fala, custa quase nada gravar grandes quantidades de dados, mas rotul-los requer que um humano oua e digite uma transcrio. Bilhes de pginas esto diretamente disponveis para processamento direto, mas para classific-las humanos tem de l-las. Seqncias de protenas so fceis de adquirir em velocidade industrial hoje em dia (por seqenciamento de genoma, busca computacional de gene, e traduo automtica), mas resolver uma estrutura tridimensional ou determinar as funes de uma simples protena pode levar anos de trabalho cientfico. O. Chapelle, B. Schlkopf, and A. Zien, Eds., Semi-Supervised Learning, ser. Adaptive Computation and Machine Learning. Cambridge, MA: The MIT Press, 2006.
  • Slide 10
  • Classes de Algoritmos Auto Treinamento Modelos generativos Separao de baixa densidade Mtodos baseados em grafos X. Zhu, Semi-supervised learning literature survey, Computer Sciences, University of Wisconsin- Madison, Tech. Rep. 1530, 2005. O. Chapelle, B. Schlkopf, and A. Zien, Eds., Semi-Supervised Learning, ser. Adaptive Computation and Machine Learning. Cambridge, MA: The MIT Press, 2006.
  • Slide 11
  • Auto Treinamento 1. Um classificador treinado usando os poucos dados rotulados. 2. Esse classificador usado para classificar os dados no rotulados. 3. Os dados no rotulados mais confiveis e seus rtulos preditos so adicionados ao conjunto de treinamento. 4. O classificador re-treinado e o procedimento repetido. Tambm chamado auto aprendizado ou bootstrapping Alguns algoritmos evitam que erros de classificao sejam reforados desaprendendo dados rotulados cuja confiana caia abaixo de um certo nvel.
  • Slide 12
  • Modelos Generativos Assumem um modelo p(x,y) = p(y) p(x|y) onde p(x|y) uma distribuio identificvel, por exemplo Gaussiana Com um grande nmero de dados no rotulados a distribuio pode ser identificada; ento idealmente precisaramos apenas de uma amostra rotulada por componente para determinar a distribuio
  • Slide 13
  • X. Zhu, Semi-supervised learning literature survey, Computer Sciences, University of Wisconsin-Madison, Tech. Rep. 1530, 2005. (a) dados rotulados (b) dados rotulados e no rotulados (pontos pequenos) (c) modelo aprendido dos dados rotulados (d) modelo aprendido dos dados rotulados e no rotulados Problema de classificao binria, se assumimos que cada classe tem distribuio Gaussiana, ento podemos usar dados no-rotulados para ajudar a estimar os parmetros
  • Slide 14
  • Separao de Baixa Densidade Tentam empurrar a fronteira de deciso para longe dos dados no rotulados Exemplo: Transductive Support Vector Machines (TSVM)
  • Slide 15
  • Mtodos Baseados em Grafos rea de pesquisa mais ativa em aprendizado semi-supervisionado. Dados so representados por ns de um grafo, onde as arestas so rotuladas com a distncia entre os pares de ns. Ns rotulados so usados para propagar informao de rtulo para os demais. Mtodos assumem suavidade de rtulos atravs do grafo.
  • Slide 16
  • Mtodos Baseados em Grafos X. Zhu, Z. Ghahramani, and J. Lafferty, Semi-supervised learning using gaussian fields and harmonic functions, in Proceedings of the Twentieth International Conference on Machine Learning, 2003, pp. 912919. D. Zhou, O. Bousquet, T. N. Lal, J. Weston, and B. Schlkopf, Learning with local and global consistency, in Advances in Neural Information Processing Systems, vol. 16. MIT Press, 2004, pp. 321328. [Online]. Available: http://www.kyb.tuebingen.mpg.de/bs/people/weston/localglobal.pdf http://www.kyb.tuebingen.mpg.de/bs/people/weston/localglobal.pdf X. Zhu and Z. Ghahramani, Learning from labeled and unlabeled data with label propagation, Carnegie Mellon University, Pittsburgh, Tech. Rep. CMU-CALD-02-107, 2002. [Online]. Available: http://citeseer.ist.psu.edu/581346.htmlhttp://citeseer.ist.psu.edu/581346.html F. Wang and C. Zhang, Label propagation through linear neighborhoods, IEEE Transactions on Knowledge and Data Engineering, vol. 20, no. 1, pp. 5567, Jan. 2008. A. Blum and S. Chawla, Learning from labeled and unlabeled data using graph mincuts, in Proceedings of the Eighteenth International Conference on Machine Learning. San Francisco: Morgan Kaufmann, 2001, pp. 1926. M. Belkin, I. Matveeva, and P. Niyogi, Regularization and semisupervised learning on large graphs, in Conference on Learning Theory. Springer, 2004, pp. 624638. M. Belkin, N. P., and V. Sindhwani, On manifold regularization, in Proceedings of the Tenth International Workshop on Artificial Intelligence and Statistics (AISTAT 2005). New Jersey: Society for Artificial Intelligence and Statistics, 2005, pp. 1724. T. Joachims, Transductive learning via spectral graph partitioning, in Proceedings of International Conference on Machine Learning. AAAI Press, 2003, pp. 290297.
  • Slide 17
  • Mtodos Baseados em Grafos Seja um grafo G = (V,E), com V = {v 1,v 2,,v n }, onde cada n v i corresponde a uma amostra x i Uma matriz de adjacncia W define quais ns da rede esto interconectados, ou seja, ele identifica os ns em E w ij (e) pode ser um nmero real que mede a similaridade entre i e j (por exemplo)
  • Slide 18
  • Mtodos de Construo do Grafo A matriz de pesos W pode ser dada pelos k-vizinhos mais prximos W ij = 1 se x i est entre os k-vizinhos mais prximos de x j ou vice-versa (e 0 caso contrrio) Outra matriz de peso tpica dada pelo kernel Gaussiano de largura (11.1)
  • Slide 19
  • Mtodos Iterativos Ns rotulados iniciam com seus respectivos rtulos (1 ou -1) Ns no rotulados iniciam com 0 Ns propagam seus rtulos repetidamente at convergncia Exemplo: X. Zhu and Z. Ghahramani, Learning from labeled and unlabeled data with label propagation, Carnegie Mellon University, Pittsburgh, Tech. Rep. CMU-CALD-02-107, 2002. [Online]. Available: http://citeseer.ist.psu.edu/581346.htmlhttp://citeseer.ist.psu.edu/581346.html
  • Slide 20
  • Mtodos Iterativos Alternativas: Forar W ii = 0 pode resultar em melhores resultados Remover a linha 2 pode dar melhores resultados quando as classes se sobrepem
  • Slide 21
  • Mtodos Iterativos D. Zhou, O. Bousquet, T. N. Lal, J. Weston, and B. Schlkopf, Learning with local and global consistency, in Advances in Neural Information Processing Systems, vol. 16. MIT Press, 2004, pp. 321328. A cada passo um n i recebe a contribuio de seus vizinhos j (ponderados pelo peso normalizado da aresta (i,j), e uma pequena contribuio adicional de seu valor inicial
  • Slide 22
  • Classificao de padro com duas luas dado pelo modelo de Zhou et. al. (2004). O processo de convergncia do algoritmo com t crescendo de 1 a 400 mostrado de (a) at (d) Note que as informaes de rtulos inicial difundida ao longo das luas.
  • Slide 23
  • Regularizao em Grafos O problema do aprendizado semi- supervisionado em um grafo G consiste em encontrar um conjunto de rtulos que seja consistente com ambos o conjunto de rtulos iniciais (incompleto) e a geometria dos dados induzida pela estrutura do grafo (arestas e pesos em W)
  • Slide 24
  • Regularizao em Grafos Consistncia com os rtulos iniciais: Consistncia com a geometria dos dados com L = D W. Isto significa que penalizamos mudanas rpidas em Y entre pontos que esto prximos (dado pela matriz de similaridade W)
  • Slide 25
  • Regularizao em Grafos Vrios algoritmos so baseados nessas consideraes X. Zhu, Z. Ghahramani, and J. Lafferty. Semi-supervised learning using Gaussian fields and harmonic functions. In Twentieth International Conference on Machine Learning, pages 912912, Washington, DC, 2003b. AAAI Press. Fora os rtulos iniciais dos dados rotulados Ento minimiza a funo de consistncia da geometria em
  • Slide 26
  • Regularizao em Grafos Porm, quando h rudo nos rtulos disponveis, pode ser benfico permitir que os dados rotulados sejam re-rotulados. Tambm pode melhorar a generalizao mesmo quando no h rudo Isto leva a um critrio de custo mais geral, envolvendo um balano entre as duas equaes. M. Belkin, I. Matveeva, and P. Niyogi. Regularization and semi-supervised learning on large graphs. In Proceedings of the Seventeenth Annual Conference on Computational Learning Theory, pages 624638, Banff, Canada, 2004b. O. Delalleau, Y. Bengio, and N. Le Roux. Efficient non-parametric function induction in semisupervised learning. In Artificial Intelligence and Statistics, 2005. Um termo de regularizao pode ser adicionado
  • Slide 27
  • Regularizao em Grafos A maioria dos mtodos iterativos tambm pode ser visto como estimando uma funo f no grafo que satisfaa as seguintes condies ao mesmo tempo: 1.Deve ser prximo dos rtulos dados pelo ns pr-rotulados 2.Deve ser suave por todo o grafo. Isto pode ser visto como um framework de regularizao onde o primeiro termo uma funo de perda, e o segundo termo um regularizador.
  • Slide 28
  • Regularizao em Grafos Exemplo: O algoritmo Label Spreading (ou Mtodo de Consistncia) equivale seguinte funo de custo: Onde >0 o parmetro de regularizao. Ento a funo de classificao : D. Zhou, O. Bousquet, T. N. Lal, J. Weston, and B. Schlkopf, Learning with local and global consistency, in Advances in Neural Information Processing Systems, vol. 16. MIT Press, 2004, pp. 321328.
  • Slide 29
  • Mtodos Baseados em Grafos Podem identificar diferentes distribuies de dados A maioria deles compartilha de um framework de regularizao, diferindo apenas na escolha particular da funo de perda e do regularizador A maioria deles tem alta ordem de complexidade computacional (O(n 3 )), limitando seu uso a base de dados pequenas ou mdias. X. Zhu, Semi-supervised learning literature survey, Computer Sciences, University of Wisconsin-Madison, Tech. Rep. 1530, 2005.
  • Slide 30
  • Modelo de Partculas M. G. Quiles, L. Zhao, R. L. Alonso, and R. A. F. Romero, Particle competition for complex network community detection, Chaos, vol. 18, no. 3, p. 033107, 2008. [Online]. Available: http://link.aip.org/link/?CHAOEH/18/033107/ 1 http://link.aip.org/link/?CHAOEH/18/033107/ 1 Partculas caminham na rede e competem com as outras de forma que cada uma tenta possuir a maior quantidade de ns possvel Cada partcula tenta evitar que outras partculas invadam seu territrio Finalmente, cada partcula confinada dentro de uma comunidade na rede
  • Slide 31
  • Ilustrao do processo de deteco de comunidade pela caminhada competitiva de partculas competitiva. O nmero total de ns N=128, o nmero de comunidades M=4. A proporo de links externos z out / k = 0.2, e o grau mdio dos ns k=16. (a) Configurao inicial. Quatro partculas representadas por amarelo, ciano, laranja e azul, so colocadas aleatoriamente na rede. Vermelho representa ns livres. (b) Um snapshot da iterao 250. (c) Um snapshot da iterao 3500. (d) Um snapshot da iterao 7000.
  • Slide 32
  • Configurao Inicial Uma partcula gerada para cada n rotulado na rede N-casa da partcula Partculas com o mesmo rtulo jogam pelo mesmo time Ns tem um vetor de domnio Ns rotulados tem o domnio configurado para seus respectivos times Ex: [ 1 0 0 0 ] (4 classes, ns rotulados como classe A) Ns no rotulados tem nveis configurados igualmente para cada time Ex: [ 0.25 0.25 0.25 0.25 ] (4 classes, ns no rotulados) Posio inicial das partculas configurada para seus respectivos ns-casa
  • Slide 33
  • Modelo de Partculas Semi- Supervisionado Competio e cooperao entre partculas na rede Competio pela posse de ns da rede Cooperao entre partculas do mesmo time (rtulo) Cada time de partculas tenta dominar a maior quantidade de npos possvel de maneira cooperativa e ao mesmo tempo evitar a invaso de partculas de outros times. Caminhada Aleatria-Determinstica
  • Slide 34
  • Dinmica de ns Quando uma partcula seleciona um vizinho para visitar: Ela diminui o nvel de domnio de outros times no n alvo. Ela aumenta o nvel de domnio de seu prprio time no n alvo. Exceo: Nveis de domnio de ns rotulados fixo. t t+1
  • Slide 35
  • Dinmica de Partculas Uma partcula se torna: Mais forte quando ela tem como alvo um n dominado por seu time Mais fraca quando ela tem como alvo um n dominado por outro time
  • Slide 36
  • 4 2 Tabela de Distncia Mantm a partcula informada da distncia de seu n-casa Evita que a partcula perca toda sua fora quando andando em vizinhanas inimigas Mantm as partculas por perto para proteger sua prpria vizinhana Atualizadas dinamicamente com informao local No requer clculo a priori 0 1 1 2 3 3 4 4 ?
  • Slide 37
  • Caminhada de partculas Choques Uma partcula visita o n alvo somente se o nvel de domnio de seu time maior que o dos outros; Caso contrrio, um choque acontece e a partcula fica no n onde estava at a prxima iterao. Como uma partcula escolhe um vizinho como alvo? Caminhada aleatria Caminhada determinstica
  • Slide 38
  • Caminhada Aleatria-Determinstica Caminhada Aleatria A partcula escolhe aleatoriamente um vizinho para visitar sem se preocupar com nveis de domnio ou distncia Caminhada Determinstica A partcula prefere visitar ns que seu time j domina e ns prximos de sua casa A partcula precisa exibir ambos os movimentos para obter um equilbrio entre comportamento exploratrio e defensivo
  • Slide 39
  • Probabilidades no Movimento Determinstico Probabilidades no Movimento Aleatrio v1v1 v2v2 v3v3 v4v4 v2v2 v3v3 v4v4 v2v2 v3v3 v4v4
  • Slide 40
  • Algoritmo 1) Construir a matriz de adjacncia, 2) Configurar os nveis de domnio, 3) Configurar posio inicial de partculas e seus correspondentes ns-casa. Configurar fora da partcula e distncia, 4) Repetir passos 5 a 9 at a convergncia ou at que um nmero pr-definido de passos seja atingido, 5) Para cada partcula, complete os passos 6 a 9, 6) Selecione o n alvo usando a regra determinstica- aleatria, 7) Atualize os nveis de domnio do n alvo, 8) Atualize a fora da partcula, 9) Atualize a tabela de distncias, 10) Rotule cada n no rotulado de acordo com o time que tiver maior domnio.
  • Slide 41
  • Fig. 1. Classificao de padres em forma de banana. (a) base de dados com 2.000 elementos divididos em duas classes, 20 amostras so pr- rotuladas (crculos vermelhos e quadrados azuis). (b) classificao obtida pelo mtodo proposto.
  • Slide 42
  • Sada Fuzzy e Deteco de Outliers H casos comuns onde alguns ns da rede podem pertencer a mais de uma comunidade Exemplo: Em uma rede social de amizades, indivduos freqentemente pertencem a vrias comunidades: suas famlias, seus colgas de trabalho, seus colegas de escola, etc. Estes ns so chamados sobrepostos A maioria dos algoritmos de deteco de comunidade no consegue detect-los
  • Slide 43
  • Sada Fuzzy e Deteco de Outliers Algoritmo de partculas padro Nveis de domnio final definem os rtulos Bastante voltil em certas condies Em ns sobrepostos o time dominante muda freqentemente Nveis no correspondem medida de sobreposio Algoritmo modificado Nova varivel: mdia dos nveis de domnio em cada n durante todo o tempo Ponderado pela fora da partcula Considera apenas o movimento aleatrio Agora o campeo no mais o time que ganhou os ltimos jogos, mas sim o time que ganhou mais jogos durante todo o campeonato
  • Slide 44
  • Classificao fuzzy de classes em forma de banana geradas com diferentes parmetros de varincia: (a) s = 0.6 (b) s = 0.8 (c) s = 1.0. Tamanho e cor dos ns representam seu respectivo ndice de sobreposio.
  • Slide 45
  • Slide 46
  • Slide 47
  • Classificao de classes com distribuio normal (Gaussiana). (a) base de dados com 1.000 amostras divididas em quatro classes, 20 amostras so rotuladas, 5 de cada classe (quadrados vermelhos, tringulos azuis, losangos verdes e estrelas roxas). (b) tamanho e cores dos ns representam o grau de sobreposio.
  • Slide 48
  • Slide 49
  • Comparativo entre o modelo padro e o modificado: (a) conjunto de dados artificial com alguns ns com rtulo errado (b) classificao pelo mtodo de partculas padro (c) classificao pelo modelo de partculas modificado
  • Slide 50
  • Slide 51
  • Slide 52
  • Rede do clube de carat*. Tamanho e cores dos ns representam seus respectivos ndices de sobreposio detectados pelo mtodo de partculas. * W. W. Zachary, An information flow model for conflict and fission in small groups, Journal of Anthropological Research, vol. 33, pp. 452473, 1977.