Clustering aplicado às eleições 2010

18
Clustering aplicado às Eleições 2010

description

Análise de Clustering aplicado às eleições 2010. Foram avaliadas matérias publicadas em grandes portais online sobre o primeiro debate Band dos presidenciáveis.

Transcript of Clustering aplicado às eleições 2010

Page 1: Clustering aplicado às eleições 2010

Clustering aplicado às

Eleições 2010

Page 2: Clustering aplicado às eleições 2010

O que é Clustering?

Clustering compreende uma família de técnicas computacionais utilizadas paraagrupar dados semelhantes entre si.

A imagem ao lado ilustra umaaplicação de clustering a umconjunto de dados referentes aconsumidores. Cada pontocorresponde às respostas de umquestionário de um consumidor,e quatro grupos deconsumidores podem serrapidamente visualizados. O queos agrupa é o quanto elesassociam bebida alcóolica a umadas seguintes características:individualidade, status, apelosocial e esperteza.

Fonte: Wikipedia

Page 3: Clustering aplicado às eleições 2010

Clustering e Comunicação DigitalAplicar clustering a uma quantidadesignificativa de conteúdo digital poderevelar relações entre palavras queevidenciam aspectos de notícias, opiniões eoutras informações veiculadas em mídiastradicionais e sociais, direcionando leiturase análises.

• Especialmente útil quando a quantidade deconteúdo nas mídias é muito abundante,requerendo muito tempo para ser lida.

Page 4: Clustering aplicado às eleições 2010

Clustering e Comunicação Digital

Os agrupamentos obtidosatravés de clustering ajudama entender como as mídiasestão enfocando umadeterminada marca ou pessoapública, evidenciando recortesde assunto (agrupamentosdiferentes) e aquilo que émais relevante (agrupamentosmaiores).

• Ou seja, têm aplicação diretaa monitoramento de conteúdodigital

Cada agrupamento de menções a uma marcaX evidencia algo diferente (assunto, aceitaçãoetc).

Page 5: Clustering aplicado às eleições 2010

O modelo de tópicos L-LDA é umatécnica computacional paraagrupamento de informação portópicos (Ramage et al.).Diferentemente de outras técnicas declustering, cada agrupamento, antes deser gerado, já está previamenteassociado a um tópico. A interpretaçãodo significado de cada um deles,portanto, torna-se mais objetiva. Umtópico pode ser um assunto, uma tagde blog, um sentimento etc.

Agrupamento de menções à marca portópicos (atendimento, variedade epromoções)

Modelo de Tópicos L-LDA

Page 6: Clustering aplicado às eleições 2010

Modelo de Tópicos L-LDA

Imagine um conjunto de postsmarcados com tags diferentes,cada uma representando umtópico. O L-LDA parte da ideia deque as palavras em cada post seassociam às tags de formadiferente, agrupando-as deacordo com este princípio. Atabela ao lado mostra umaaplicação do L-LDA a umconjunto de posts do del.icio.us(Ramage et al.). Observe comoas palavras associadas a cada tagse relacionam semanticamente.

Tópico Palavras

WebWeb, search, site,blog, css, content,google

BooksBook, image, pdf,review, library,posted, read

ScienceWoorks, water,map, human, life,work, science

ReligionComment, god,jesus, people,gospel, bible, reply

Page 7: Clustering aplicado às eleições 2010

• Dados– Notícias sobre o debate dos presidenciáveis do dia 05 de Agosto

de 2010, organizado pela Band.• Portais: Globo, Folha, Terra, iG e Estadão.• Presidenciáveis: Dilma Rousseff, José Serra, Marina Silva e

Plínio Arruda.• Datas monitoradas: 05 e 06 de Agosto de 2010.

• Tópicos– Cada notícia foi rotulada com três tópicos:

• presidenciável destacado (nos casos em que Serra e Dilmaforam muito discutidos, o rótulo dado foi “serdil”; no caso emque todos foram enfocados, “todos”);

• data da notícia;• portal.

Debate da Band: agrupando conteúdo

com um L-LDA

Page 8: Clustering aplicado às eleições 2010

As dez palavras mais fortemente agrupadas em torno de cada presidenciável (ou“serdil” ou “todos”), excetuando artigos, conjunções, preposições a algunspronomes, estão listadas na tabela abaixo.

dilma eduardo,bandeirantes, paulo, petista, foi, candidato, dilma,são,lula,primeiro

serra aécio,governo,foi,diz,avaliar,psdb,pesquisa,presidenciável,conseguiu,bandeirantes

marina presidenciável, ter, marinasilva, receio, disse, são, candidata,marina, diz,candidato

plínio presidência,sampaio,plateia,aliados,marisa,república,foi,primeiro,for,campanha

todos debate,plínio,marinasilva,candidatos,educação,distribuição,dilmarousseff,primeiro,federal,críticas

serdil serra,luiz,candidato,nome,plínio,blocos,bandeirantes,foi,bloco,todos

Debate da Band: agrupando conteúdo

com um L-LDA

Page 9: Clustering aplicado às eleições 2010

• Dilma Rousseff

– "O primeiro debate entre os candidatos à Presidência da República,promovido na noite da quinta-feira pela Rede Bandeirantes, teve emseu primeiro bloco a candidata do PT, Dilma-Rousseff, buscando em

um dado momento fazer comparações entre as gestões de Luiz InácioLula da Silva e Fernando Henrique Cardoso."

– “Dilma chegou acompanhada do ex-ministro Antonio Palloci, dopresidente do PT José Eduardo Dutra e João Santana Filho. Parareforçar a plateia feminina, está presente a primeira dama Marisa Letícia.”

Debate da Band: agrupando conteúdo

com um L-LDAPara compreender melhor estes agrupamentos, recomenda-se ler passagens dasnotícias que contenham as palavras listadas.

Page 10: Clustering aplicado às eleições 2010

• José Serra– "O ex-governador de Minas Gerais Aécio Neves (PSDB) afirmou nesta

sexta-feira que o presidenciável tucano José-Serra saiu-se melhor nodebate na TV Bandeirantes, na noite de ontem."

– “Depois, em entrevista, Serra se recusou a avaliar seu desempenho doprimeiro debate da TV da campanha presidencial. O candidato tucanonão quis avaliar a nova pesquisa Ibope divulgada hoje, que apontaDilma (PT), com 39% das intenções de voto, contra 34% para o tucano.Marina, do PV, está com 8%. 'Não comento pesquisa', declarou Serra. "

Debate da Band: agrupando conteúdo

com um L-LDAPara compreender melhor estes agrupamentos, recomenda-se ler passagens dasnotícias que contenham as palavras listadas.

Page 11: Clustering aplicado às eleições 2010

• Marina Silva– “Estou tranquila, graças a Deus. Preparo não significa receio, significa

respeito com o cidadão e com o concorrente."

– “Apesar das críticas pesadas, Marina disse que não se sentiu alvoexclusivo do candidato do PSOL. Ela avalia que a estratégia decombate e desconstrução do adversário resvalou em todos osdebatedores. 'O importante foi que me mantive tranquila. Sobre ele terme chamado de Poliana, não me senti triste porque na época de lerpoliana eu ainda era analfabeta', afirmou.”

Debate da Band: agrupando conteúdo

com um L-LDAPara compreender melhor estes agrupamentos, recomenda-se ler passagens dasnotícias que contenham as palavras listadas.

Page 12: Clustering aplicado às eleições 2010

• Plínio Arruda– “O candidato do PSOL se disse orgulhoso com o próprio desempenho

'Pimenta' do debate desta quinta-feira na TV Bandeirantes,conforme definição dos aliados."

– “Apesar das críticas pesadas, Marina disse que não se sentiu alvoexclusivo do candidato do PSOL. Ela avalia que a estratégia decombate e desconstrução do adversário resvalou em todos osdebatedores. 'O importante foi que me mantive tranquila. Sobre ele terme chamado de Poliana, não me senti triste porque na época de lerpoliana eu ainda era analfabeta', afirmou.”

Debate da Band: agrupando conteúdo

com um L-LDAPara compreender melhor estes agrupamentos, recomenda-se ler passagens dasnotícias que contenham as palavras listadas.

Page 13: Clustering aplicado às eleições 2010

• Todos– “Plínio questionou as respostas de Dilma. E disse que é fundamental a

distribuição de terras. E afirmou que vai defender a igualdade social.”– “O tucano defendeu que o governo federal entre na luta contra o crime

organizado e prometeu criar o ministério da Segurança. Na sequênciaele perguntou para Dilma quais eram suas propostas concretas parasaúde, educação e segurança.”

– “Além de protagonizarem a primeira troca de críticas sobre estradas,Dilma e Serra falaram sobre política de emprego, após a petista seempenhar em uma comparação entre os governos Lula e FHC.”

Debate da Band: agrupando conteúdo

com um L-LDAPara compreender melhor estes agrupamentos, recomenda-se ler passagens dasnotícias que contenham as palavras listadas.

Page 14: Clustering aplicado às eleições 2010

Debate da Band: agrupando conteúdo

com um L-LDA

• SerDil– “'Enfim o Serra mostrou a verdadeira cara. É contra o Lula e escondeu

o Fernando Henrique', disse Rui Falcão, da coordenação da campanhado PT.”

– “A candidata do PT à Presidência, Dilma Rousseff, preferiu utilizar aexpressão 'nosso governo' no debate desta quinta-feira na TVBandeirantes ao invés de citar diretamente o presidente Luiz InácioLula da Silva.”

– “Um monitoramento do desempenho dos candidatos realizado pelomarqueteiro do PSDB, Luiz González, apontou que a candidata do PV,Marina Silva, teria se saído melhor que a petista Dilma Rousseff nosdois últimos blocos do debate realizado pela Band.”

Para compreender melhor estes agrupamentos, recomenda-se ler passagens dasnotícias que contenham as palavras listadas.

Page 15: Clustering aplicado às eleições 2010

• A escolha dos tópicos deve ser bem pensada, afim de gerar agrupamentos suficientementediferentes que evidenciem aspectos distintos de ummesmo conjunto de documentos.

– Os tópicos por portal e por data, porexemplo, não conduziram a uma análiseinteressante sobre a cobertura do debate.

• A quantidade de documentos (notícias, posts,tweets etc.) também deve ser a maior possível, a fimde se garantir que os agrupamentos realmenterevelam padrões significativos. Se a quantidade dedocumentos é pequena, a leitura de todos eles éviável e certamente leva a uma compreensão melhordos conteúdos abordados.

– Para o debate da Band, a quantidade dedocumentos analisados foi pequena (51notícias). Não é o ideal, mas foi suficientepara os propósitos didáticos destaapresentação.

Debate da Band: agrupando conteúdo

com um L-LDA

Page 16: Clustering aplicado às eleições 2010

É possível aplicar técnicas de Clustering para aperfeiçoar eotimizar mecânicas e metodologias de monitoramento eanálise de marcas na internet e mídias sociais.

A PaperCliQ promove a pesquisa e desenvolvimento de novastécnicas e metodologias. O clustering é uma das muitastécnicas que podem ser utilizadas nos relatórios demonitoramento de marcas, concorrência, setor ou públicoproduzidos pela agência.

Para saber mais, veja mais relatórios ou entre em contatoatravés dos links dos próximos slides.

Clustering, monitoramento e análise

Page 17: Clustering aplicado às eleições 2010

FontesRamage D., Hall D., Nallapati R., Manning C. Labeled Lda: A supervised topicmodel for credit attribution in multi-labeled corpora. In Proceddings of the2009 Conference on Empirical Methods in Natural Language Processing,2009.

+ sobre Monitoramento: