Post on 08-Jul-2020
UNIVERSIDADE FEDERAL DE MINAS GERAIS
ESCOLA DE ENGENHARIA
CURSO DE GRADUAÇÃO EM ENGENHARIA DE CONTROLE E
AUTOMAÇÃO
GABRIEL MASCARENHAS RIBEIRO DE PAULA
IDENTIFICAÇÃO DE PERFIS DE TORCEDORES NO TWITTER
BELO HORIZONTE, JUNHO DE 2013
GABRIEL MASCARENHAS RIBEIRO DE PAULA
IDENTIFICAÇÃO DE PERFIS DE TORCEDORES NO
Trabalho de conclusão de curso de curso de
Graduação em Engenharia de Controle e
Automação da Universidade Federal de
Minas Gerais, submetido à banca
examinadora, como requisito parcial para
obtenção do título de Bacharel em Engenharia
de Controle e Automação.
Orientador: Prof. Clodoveu Augusto Davis Jr.
Supervisora: Prof.ª Gisele Lobo Pappa.
BELO HORIZONTE, JUNHO DE 2013
Gabriel Mascarenhas Ribeiro de Paula
Identificação De Perfis De Torcedores No Twitter
Trabalho de conclusão de curso de curso de
Graduação em Engenharia de Controle e
Automação da Universidade Federal de Minas
Gerais, submetido à banca examinadora, como
requisito parcial para obtenção do título de
Bacharel em Engenharia de Controle e
Automação.
Aprovada por:
_____________________________
Prof. Clodoveu Augusto Davis Jr / DCC – UFMG
(Orientador)
______________________________
Profa. Gisele Lobo Pappa / DCC – UFMG
______________________________
Prof. André Paim Lemos / DELT – UFMG
Agradecimentos
Agradeço aos meus pais pelo apoio incondicional, aos meus avós pelo
exemplo, aos meus familiares e amigos pela força e a quem teve paciência
de compreender com carinho minha indisponibilidade durante esses meses.
À minha grande tutora no ambiente universitário Profª. Lena, que
me introduziu no CCNM, à Profª Geane, ao Pedro Marra e à Vitória. Aos
colegas de estrada, Pezzini, Marcos e aos companheiros de PFC 2.
Agradeço muito, tanto a acolhida pelo projeto quanto a orientação do
Prof. Clodoveu. Sou grato à Profª Gisele, por ter aceitado a supervisão da
monografia e também ao Prof. André, por ter aceitado compor minha
banca.
Este trabalho é parcialmente apoiado pelo InWeb (CNPq processo
573871/2008-6), e por projetos CNPq (308678/2012-5) e FAPEMIG (CEX-
PPM-00466-11).
“Você não pode confiar em seus olhos
quando sua imaginação está fora de foco.”
Samuel Langhorne Clemens (Mark Twain).
Resumo
Nos últimos anos, a World Wide Web (WEB) difundiu-se de maneira
expressiva na sociedade, passando a desempenhar um papel vital na
indústria da informação. Técnicas de extração de conhecimento em bancos
de dados (KDD – Knowledge Discovery in Database) foram desenvolvidas
com o intuito de facilitar a tarefa de análise de grandes volumes de dados,
com o auxílio de métodos automáticos. A análise de redes online de caráter
social, como o Twitter, permite traçar perfis de comportamentos diante de
determinados acontecimentos. Nesse panorama, este trabalho propõe
investigar o comportamento de usuários do Twitter, quanto ao seu
envolvimento com determinada equipe que atua no Campeonato Brasileiro
de futebol. Busca-se identificar entidades, tais como fontes jornalísticas,
torcedores rivais e torcedores da equipe – neste caso, os torcedores são
classificados de acordo com o nível de fanatismo a eles atribuído.
Palavras-chave: KDD, Twitter, Rede Social, Torcedores, Futebol
Brasileiro, Fanatismo.
Abstract
In the past few years the World Wide Web (WEB) emerged
expressively among the society, playing a vital role in the information
industry. Knowledge extraction techniques applied in database (KDD –
Knowledge Discovery in Databases) were developed in order to simplify the
task of analyzing large datasets with the aid of automatic methods.
Analysis of online social networks, such as Twitter, allows tracing behavior
profiles owing to certain events. In this overview, this work proposes to
investigate the behavior of Twitter users, based on the involvement with
certain soccer team that plays in Brazilian Soccer Championship. It seeks to
identify entities such as journalistic sources, detractors and supporters of
the chosen team. In the latter case the supporters are classified according
to the level of fanaticism assigned to them.
Keywords: KDD, Twitter, Social Network, Soccer Fans, Brazillian
Soccer Championship, Fanaticism.
Sumário
1. Introdução ................................................................................. 12
1.1. Objetivos .................................................................... 13
1.2. Motivação ................................................................... 13
1.3. Twitter ....................................................................... 14
1.4. Brasileirão .................................................................. 16
1.5. Projetos e Instituições Envolvidas .................................. 17
1.6. Organização do Texto ................................................... 19
2. Revisão Bibliográfica ................................................................... 20
2.1. Tecnologias de Bancos de Dados .................................... 20
2.1.1. O KDD ........................................................................ 21
2.1.2. Classificação via Árvores de Decisão. .............................. 25
2.2. Pesquisas no Twitter .................................................... 28
2.3. Comportamento de Torcedores de Times de Futebol ......... 30
3. Metodologia ............................................................................... 32
3.1. Coleta de Dados .......................................................... 32
3.2. Redução do Banco de Dados ......................................... 33
3.2.1. Seleção de Subconjunto de Atributos ............................. 34
3.2.2. Seleção de Usuários e Mensagens .................................. 38
3.3. Modelagem ................................................................. 43
3.3.1. Hierarquia Conceitual de Tempo .................................... 43
3.3.2. Repertório do Brasileirão............................................... 47
3.4. As Pesquisas ............................................................... 48
3.4.1. Processamento dos Resultados das Pesquisas .................. 51
3.5. Identificação de Perfis .................................................. 52
3.5.1. Procedimento de Inspeção das Páginas ........................... 54
4. Resultados ................................................................................. 60
4.1. Resultados Quantitativos .............................................. 61
4.2. Resultados Qualitativos ................................................ 73
5. Conclusões ................................................................................ 81
Referências Bibliográficas ................................................................. 84
Lista de Figuras
Figura 1 - O processo de KDD adaptada de Fayyad et al. (1996). ........... 22
Figura 2 - Arvore de decisão sobre risco de empréstimo, adaptado de
Camilo e da Silva (2009). .................................................................. 25
Figura 3 - Exemplo de uma estrutura em JSON. ................................... 36
Figura 4 - Distribuição dos usuários pelo número de mensagens referentes
ao Flamengo postadas. ..................................................................... 40
Figura 5 - Distribuição das páginas válidas, obtidas pela inspeção. ......... 57
Figura 6 – Diagrama de Identificação de Perfis de Usuários .................... 60
Figura 7 - Apresentação da árvore binária de decisão para a diferenciação
entre pessoas e entidades jornalísticas. ............................................... 74
Figura 8 – Resultados obtidos através do questionário sobre
comportamento fanático. ................................................................... 78
Figura 9 - Graduação atribuída a cada resposta das questões. ................ 91
Lista de Tabelas
Tabela 1 - Apresentação das ferramentas de interação caracteres de
identificação. ................................................................................... 15
Tabela 2 - Função dos caracteres especiais em JSON. ........................... 35
Tabela 3 - Percentual de usuários por faixa de número de mensagens. ... 41
Tabela 4 - Resultados da caracterização global aplicada diretamente ao
conjunto de classes. ......................................................................... 63
Tabela 5 – Comparação da caracterização global inicial com a rotulação
aleatória .......................................................................................... 64
Tabela 6 - Comparação da caracterização dos membros da superclasse
“Fontes Jornalísticas” com a rotulação aleatória. ................................... 65
Tabela 7 – Resultado da caracterização global, por categoria, após
eliminações...................................................................................... 66
Tabela 8 - Identificação dos tipos de páginas retratadas ........................ 68
Tabela 9 - Caracterização dos membros superclasse “Fontes Jornalísticas”
...................................................................................................... 69
Tabela 10 - Identificação do time ao qual o usuário é afiliado. ................ 70
Tabela 11 - Determinação do nível de fanatismo dos usuários. ............... 71
Tabela 12 - Diferenciação entre Torcedores e Fanáticos. ........................ 71
Tabela 13 - Identificação de Fanáticos pelo Flamengo ........................... 72
Abreviações
API – Application Programming Interface
BLOG – Web Log
CART – Classification and Regression Tree
CBF – Confederação Brasileira de Futebol
CCNM – Centro de convergência de novas mídias
GPS – Global positioning system
ID3 – Iterative Dichotomiser 3
InWeb – Instituto Nacional de Ciência e Tecnologia para a Web
KDD – Knowledge Discovery in Databases
MSE – Mean-squared Error
OLAP – On-line Analytical Processing
OLTP – On-line Transaction Processing
URL – Uniform Resource Locator
UTC – Coordinated Universal Time
WEB – World Wide Web
12
1. Introdução
As redes sociais se apresentam como um conjunto de ferramentas
que possibilitam novas formas de interação entre os usuários da internet.
Nos últimos anos, os diversos sites que seguem esse modelo
experimentam um crescimento expressivo, quanto ao número de adeptos.
Dentre as redes sociais mais bem sucedidas está o Twitter1,que é
conhecido por se limitar à propagação de mensagens curtas. Os dados
dessa rede social são amplamente utilizados em pesquisas dos mais
diversos tipos.
Dentro do Twitter trafega um grande volume de dados. A utilização
dos mesmos como fonte de pesquisa é possibilitada pelo site. Para que
sejam extraídas informações relevantes para os objetivos das análises, é
necessário o emprego de técnicas de KDD (Knowledge Discovery in
Databases).
As pesquisas no Twitter se diferem com relação ao escopo da
abordagem. Uma possibilidade muito explorada, geralmente com objetivos
mercadológicos, é traçar perfis de usuários de acordo com seus
comportamentos no ambiente de tal rede social.
Dentre os temas que circulam na rede, o futebol é um assunto em
destaque. Mensagens diversas, tais como comentários em relação aos
resultados das partidas e o uso de provocações contra torcedores de times
rivais são algumas das discussões transpostas para o ambiente das redes
sociais.
É culturalmente sabido que o futebol é uma das grandes paixões do
brasileiro. Como são variadas as formas do torcedor expressar seu
sentimento perante seu time, e estes comportamentos podem ser usados
1 http://twitter.com/
13
para identificar a força de tal relação, tem-se um campo fértil para o
desenvolvimento de um trabalho de pesquisa.
Trabalhos que utilizem técnicas diferenciadas de coletas de dados
para compreensão e exploração da paixão e fanatismo penetram em um
campo explorado e com grande potencial (CÁCERES, 2010).
1.1. Objetivos
O objetivo do trabalho é identificar perfis comportamentais entre
usuários que disseminam mensagens sobre futebol no Twitter.
1.2. Motivação
A atividade das chamadas “Torcidas organizadas2” pode, em alguns
casos, levar alguns de seus membros a um comportamento fanático
denominado “disfuncional”.
Neste caso extremo, o torcedor se encontra apto a defender seu
clube do coração, adquirindo uma psicologia quase bélica (MORAES,
2010). Fatos recentes atribuem a esse tipo de torcedor casos de
vandalismo, combate físico e até assassinato de torcedores de times
rivais.
Apesar de o trabalho não prever esse tipo de perfil, pretende-se
delimitar um grupo no qual um torcedor dessa natureza — caso utilize o
Twitter para expressar sua devoção — certamente estaria incluído.
O trabalho pode servir de base para estimular interações entre
torcedores na rede, Cáceres (2010) pontua que certos tipos de torcedores
têm como necessidade a interação com torcedores do mesmo time.
No que diz respeito à área do conhecimento abordada (KDD), esta
pode ser encarada como uma área bastante interdisciplinar.
2 Um agrupamento de pessoas que simpatizam por um clube de futebol. Em casos excepcionais tais grupos utilizam de violência para defender o time de afiliação.
14
Boa parte do trabalho se realiza em um grupo dotado de tal caráter,
o CCNM (Centro de Convergência de Novas Mídias), sendo assim, é
possível se obter um intercâmbio produtivo de conhecimentos e
descobertas.
Uma das atuais direções do grupo é o estudo de metodologias de
pesquisa em rede, tema que vai ao encontro do que aqui é proposto. Além
disso, o grupo possui um pesquisador que tem como assunto de pesquisa
o comportamento de torcidas de futebo. Seu auxílio enriqueceu as
análises desenvolvidas.
Finalmente, tal trabalho abre espaço para a proposição de novas
análises a partir dos dados obtidos pelo Observatório do Brasileirão.
1.3. Twitter
O Twitter é uma rede social criada em 2006, pelo estadunidense
Jack Dorsey. Sua característica principal é ser um veículo de mensagens
curtas que não ultrapassam 140 caracteres, trata-se, portanto, de um
serviço de microblogging3.
Do ponto de vista de mineração de dados, uma rede social é um
conjunto de dados heterogêneos e multirrelacionados representados por
um grafo (HAN e KAMBER, 2006, p. 556). De acordo com essa definição, o
Twitter pode ser visto como uma rede, cujos nós são os usuários e as
arestas representam a relação entre eles.
No que diz respeito às arestas, Benevenuto et al. (2010) as
classificam como unidirecionais, seguindo a regra: “Se A é um contato de
B, B não é obrigatoriamente um contato de A”. Esse tipo de relação
transcorre do fato do não recebimento de mensagens de A na página de
notícias de B, diz-se que A é seguido por B e B é um seguidor de A.
3 São ferramentas de BLOG (diários eletrônicos expostos na WEB) simplificadas
em que há redução no tamanho da mensagem e cujo conceito está originalmente associado a dispositivos móveis de comunicação.
15
Essa característica peculiar foi importante para que o Twitter se
tornasse a rede social preferida pelas celebridades, órgãos oficiais e
empresas. O Twitter pode ser visto por muitos como um diário virtual,
confirmando sua característica de BLOG (Web Log), todavia, este é
passível de ser utilizado para diferentes finalidades, tais como a
disseminação de notícias e divulgação de produtos.
Conexões também podem ser estabelecidas através do corpo das
mensagens. As formas de interação desse tipo estão esquematizadas na
Tabela 1 - Apresentação das ferramentas de interação caracteres de
identificação.
Tabela 1 - Apresentação das ferramentas de interação caracteres de identificação.
Nome Caractere Ferramenta
Retweet RT @usuáriofonte ou via @usuáriofonte
Retweet : Compartilhar uma informação de
outro usuário
Menção ou Resposta @usuáriodestino Menção: Citar outro
usuário em uma mensagem
A cada usuário é atribuído um pseudônimo único no sistema,
identificado pelo prefixo “@”. É facultado a cada usuário do sistema o
preenchimento de um perfil, que objetiva a exposição de características
pessoais, tais como idade, sexo e cidade atual, além de uma foto de
identificação.
As mensagens produzidas podem fazer uso de uma forma especial
de marcação, as hashtags. Segundo Marquez e Lima (2011) elas agregam
todos os relatos sobre determinados assuntos, servindo como um gerador
de memórias acerca de acontecimentos. Uma palavra é caracterizada com
uma hashtag quando é precedida pelo uma cerquilha(#), aquelas que
forem mais utilizadas durante um período de tempo são destacadas na
rede na forma de tópicos de tendência (Trending topics).
É conferida a cada postagem uma informação temporal, podendo
possuir também informações sobre a localização geográfica do emissor,
isso se este tiver habilitado tal opção. Segundo (DAVIS, PAPPA, et al.,
16
2011), os principais sistemas utilizados para identificar a localização do
usuário são o GEOIP4 e GPS5 (Global positioning system).
As mensagens produzidas por usuários autenticados, caso sejam
públicas, podem ser lidas por qualquer outro usuário autenticado e,
podendo até serem visíveis por quem não possui uma conta no site. O
acesso facilitado à informação e a possibilidade de coleta automática de
dados, devido à existência de uma API6 aberta, impulsiona o uso da rede
como base para uma grande quantidade de pesquisas, algumas delas
serão enunciadas no item 3.128.
1.4. Brasileirão
O campeonato brasileiro de futebol, popularmente conhecido como
“Brasileirão”, é a principal competição futebolística nacional, e é
organizado pela CBF (Confederação Brasileira de Futebol) anualmente.
O Brasileirão segue o padrão de competição de todos contra todos,
no Brasil mais conhecido como sistema de pontos corridos. Este padrão
consiste na disputa entre times, no qual, ao final da competição, todos
terão se enfrentado o mesmo número de vezes.
No campeonato nacional são realizados dois turnos com alternância
entre os mandatários das partidas. No torneio, vinte clubes participam do
grupo de elite da competição, a série “A”, totalizando assim 380 jogos por
competição.
4 Sistema que traça as coordenadas do local da postagem através de informações que dizem respeito ao endereço IP da máquina em que a postagem é feita.
5 Sistema que traça as coordenadas de um determinado local via triangulação de
satélites.
6 Uma API é um conjunto de ferramentas acessíveis exclusivamente via algoritmos
de programação. O acesso a uma API alavanca as possibilidades de uso de um software
no sentido de possibilitar ao programador acessar funções indisponíveis para o usuário comum.
17
Em 2012, em sua quinquagésima sétima edição, o campeonato teve
início no dia dezenove de maio e terminou no dia dois de dezembro.
Os jogos estão agrupados em rodadas, sendo que em cada rodada
todos os times jogam, totalizando dez partidas por rodada e 38 rodadas
por competição.
As rodadas acontecem aos finais de semana, durante as noites de
sábado e as tardes e noites de domingo. Algumas rodadas ocorrem
durante o meio da semana, os jogos são distribuídos nas quartas e
quintas à noite. Tal formato pode ser perturbado caso haja alterações de
datas de partidas (COMISSÃO BRASILEIRA DE FUTEBOL, 2011).
1.5. Projetos e Instituições Envolvidas
Os dados utilizados neste trabalho são provenientes do
“Observatório do brasileirão7”, projeto derivado do “Observatório da
Web8”.
O “Observatório da Web” foi apresentado por Santos et al. (2010),
podendo ser encarado como um projeto com grande preocupação na
visualização, em tempo real, do que se é comentado e divulgado na Web.
Além disso, o projeto pode ser visto como uma plataforma de fluxo de
dados, dividida em estágios: coleta de dados, extração, análise e
visualização (GOMIDE J., F., et al., 2011).
O Observatório da Web extrai informações de diferentes fontes,
dentre elas portais de notícias, repositórios de vídeos e redes sociais.
Serão utilizados apenas os dados oriundos do Twitter nesta proposição,
que foram coletados através do uso da API “Streaming” do Twitter. Outras
considerações referentes à coleta dos dados serão tecidas na seção 3.1.
7 http://www.observatorio.inweb.org.br/futebol/destaques/ Vertente do observatório da web para o Campeonato Brasileiro de 2012.
8 http://observatorio.inweb.org.br/.
18
A transferência do material do Observatório do Brasileirão, referente
ao Campeonato Brasileiro de 2012, deu-se no laboratório E-Speed9 do
Departamento de Ciência de Computação da UFMG. Além da transferência
dos dados, foram passadas orientações a respeito da forma de coleta e
instruções quanto ao manejo das estruturas de dados presentes nos
registros.
As análises posteriores foram feitas de maneira “off-line”,
desvinculadas do projeto “Observatório do Brasileirão” realizado no
Laboratório E-Speed, e de forma paralela às suas atividades.
A partir disso, boa parte das tarefas foram desenvolvidas no
laboratório de computadores do CCNM.
O CCNM, em suma, é um grupo de pesquisa, ensino e extensão da
UFMG, de caráter interdisciplinar, que tem como foco analisar as formas
de comunicação já consolidadas, e as emergentes, e a forma como elas se
inter-relacionam. O grupo é coordenado pela Profª Regina Helena Alves da
Silva do departamento de História da UFMG e é vinculado ao InWeb10
(Instituto Nacional de Ciência e Tecnologia para a Web)
9 http://www.speed.dcc.ufmg.br/Speed/. 10 http://www.inweb.org.br/
19
1.6. Organização do Texto
O Capítulo 1 apresentou o objetivo do trabalho, sua motivação, o
ambiente de estudo (o Twitter) e o cenário em que se concentra a análise
(o Brasileirão).
O Capítulo 2 abordará a revisão bibliográfica realizada acerca das
tecnologias de bancos de dados (área em que se encontra a metodologia
empregada), das pesquisas realizadas no Twitter e, por fim, a respeito do
comportamento de torcedores de times de futebol.
O Capítulo 3 descreverá a metodologia empregada para a
identificação de perfis.
O Capítulo 4 apresentará os resultados obtidos com o emprego da
classificação pretendida.
No Capítulo 5 serão tecidas considerações finais.
20
2. Revisão Bibliográfica
Neste capítulo se apresenta a revisão bibliográfica versando sobre os
temas que sustentam o trabalho proposto. Na seção 2.1 é apresentada a
área do conhecimento que abarca a metodologia utilizada no trabalho. A
seção 2.2 retrata uma série de pesquisas recentes realizadas a partir de
dados do Twitter. Na seção 2.3 estão enunciados estudos sobre
comportamentos de torcedores de futebol.
2.1. Tecnologias de Bancos de Dados
O início do uso de bancos de dados data da década de 60, com o
advento dos computadores de grande porte. Na década de 70 surgiram os
primeiros bancos de dados relacionais, possibilitando o armazenamento de
registros de transações de uma organização em bases de dados. Tais
dados eram depositados em bancos de dados dotados da tecnologia OLTP
(On-line Transaction Processing).
Com o passar do tempo, a produção de dados e a capacidade de
armazená-los cresceram rapidamente devido à popularização de sistemas
de computação. Tal panorama foi observado em diversos setores da
sociedade, tais como: Comércio, Indústria, Medicina, Astronomia,
Geologia, entre outras áreas (FAYYAD, PIATETSKY-SHAPIRO e SMYTH,
1996).
O vasto montante de dados disponíveis dificulta a tarefa de análise
manual, evidenciando a necessidade de técnicas automáticas capazes de
auxiliar os analistas na tarefa de transformar dados em informação útil e
conhecimento (HAN e KAMBER, 2006)
Tais fatores contribuíram para o advento da tecnologia OLAP (On-
line Analytical Processing). Esta tecnologia é uma forma diferenciada de
bancos de dados, ao contrário da tecnologia OLTP, que consiste em um
21
simples repositório, acessível através de consultas pontuais, a tecnologia
OLAP permite tarefas mais complexas, como a correlação entre dados e o
reconhecimento de padrões.
Apesar de a tecnologia OLTP ter surgido décadas antes da OLAP, não
é correto afirmar que uma tecnologia é evolução da outra, haja vista que
elas possuem diferentes configurações e objetivos diferentes, dentro de
uma organização.
2.1.1. O KDD
As técnicas de KDD (Knowledge Discovery in Databases) surgem
com o intuito de fornecer ferramentas para que seja possível aproveitar os
benefícios trazidos pelos novos paradigmas da tecnologia de bancos de
dados. Faz-se possível, através do uso dessas técnicas, confirmar ou
refutar hipóteses a partir de dados.
Um banco de dados que se utiliza da tecnologia OLTP é passível de
originar outro, dotado da tecnologia OLAP e para isso são empregadas
técnicas de pré-processamento de dados, uma parte importante do KDD.
O termo KDD se refere ao processo não trivial de identificar, em
dados, padrões válidos, novos, potencialmente úteis e compreensíveis
(FAYYAD, PIATETSKY-SHAPIRO e SMYTH, 1996).
O termo “Mineração de Dados” ou Data Mining é tratado por Fayyad
et al. (1996) como referente a uma das etapas do KDD. Por outro lado —
com o argumento de que o termo Data Mining tem sido utilizado
preferencialmente ao longo do tempo — Han e Kamber (2006) não
realizam tal distinção. Com a finalidade de evitar ambiguidades tal termo
fará referencia apenas à etapa do KDD (vide Figura 1).
A definição exata da quantidade de etapas de KDD e do conteúdo
específico de cada uma varia entre autores da área (SANTOS, 2007). Na
Figura 1 podemos ver uma representação do processo de KDD aos moldes
do que Fayyad et al. (1996) propõem.
22
Figura 1 - O processo de KDD adaptada de Fayyad et al. (1996).
2.1.1.1. Pré-Processamento de Dados
Segundo Han e Kamber (2006), técnicas de pré-processamento dos
dados são capazes de alavancar a qualidade dos dados fazendo com que
as etapas posteriores do KDD sejam dotadas de qualidade e eficiência
para a mineração. Tais técnicas se consistem basicamente em:
Limpeza dos dados
Não é incomum se encontrar dados inconsistentes errôneos ou
faltosos. De acordo com Han e Kamber (2006), tais tipos de dados, se não
tratados, podem gerar desconfianças acerca do resultado da mineração.
Algumas técnicas comuns de limpeza de dados são a remoção de
registros problemáticos e a atribuição de um valor padrão.
Integração dos dados
As técnicas de integração de dados são especialmente importantes
em ambientes industriais e organizacionais. Organizações tipicamente
trabalham independentemente, usando tecnologias diferentes, o que
confere ao desenvolvimento de estratégias de integração um caráter
desafiador (MICK, 2003). O processo de integração trata casos de
redundância, dependências entre variáveis, valores conflitantes, entre
outros.
23
Transformação dos dados
O emprego de técnicas de transformação de dados tem como
objetivo deixá-los aptos a se tornarem insumos para algoritmos de
mineração. São operações frequentes de transformação de dados:
normalização (confina os valores em uma faixa específica), generalização
(transforma valores específicos para valores mais genéricos) e adição de
atributos (são adicionados atributos com intuito de auxiliar no processo de
mineração).
Redução dos dados
A redução dos dados é motivada pelo grande volume de registros
encontrados em bancos de dados, o que dificulta até a análise automática.
Tais técnicas preveem a escolha de uma parcela dos dados que mantenha
a representatividade do conjunto.
São algumas das técnicas utilizadas para redução de dados a
seleção de um subconjunto dos atributos, a discretização dos dados e
redução do volume de dados (por meio de histogramas e regressões
lineares).
2.1.1.2. Mineração de Dados
Dentro do processo de KDD, a mineração de dados pode ser vista
como a etapa em que métodos inteligentes são aplicados com o intuito de
extrair padrões em dados. Segundo Fayyad et al. (1996), os principais
objetivos dos processos de Data Mining são a previsão de valores futuros
ou desconhecidos e a descoberta de padrões, interpretáveis por humanos,
que descrevam os dados.
24
Os métodos inteligentes empregados usualmente são:
Reconhecimento de Padrões Frequentes
Padrões frequentes são observados em casos de itens que aparecem
constantemente juntos em uma transação11. A mineração de padrões
frequentes em dados leva ao descobrimento de associações e correlações
entre os mesmos.
Classificação
Através de dados pré-rotulados, esta técnica possibilita a descoberta
de um modelo (ou função) que permite a distinção entre classes ou
conceitos. Um dos métodos de classificação (Árvore de decisão) será
abordado com mais detalhes na seção 2.1.2.
Agrupamento (Clustering)
A técnica de agrupamento incide sobre dados não rotulados
delimitando grupos. Os princípios que regem o agrupamento são
maximizar a similaridade intraclasse e minimizar a similaridade
extraclasse (HAN e KAMBER, 2006, p. 26).
Predição
A partir de dados numéricos contínuos, esta técnica objetiva a
construção de uma função contínua que possibilite a inferência de valores
futuros ou desconhecidos.
Identificação de Outliers
Em um conjunto de dados é possível encontrar dados
significativamente destoantes dos demais (Outliers). A descoberta de tais
elementos é o objetivo dessa técnica.
11 Refere-se uma a uma tupla de um banco de dados transacional. Este é
constituído de registros que contém basicamente um identificador e um conjunto de itens.
25
2.1.1.3. Apresentação dos Resultados
A etapa final do processo de KDD tem como objetivo apresentar o
“conhecimento” extraído ao usuário (HAN e KAMBER, 2006, p. 6)
utilizando-se de técnicas de visualização e representação de
conhecimento. Estas, segundo Han e Kamber (2006), podem ser: regras
de associação, tabelas, mapas, gráficos, árvores de decisão e cubos de
dados.
2.1.2. Classificação via Árvores de Decisão.
Uma árvore de decisão é uma estrutura de dados sob a forma de
uma árvore. Do ponto de vista de mineração de dados, o processo de
indução via árvore de decisão é uma forma de aprendizado através de
classes pré-rotuladas (HAN e KAMBER, 2006, p. 291).
Figura 2 - Arvore de decisão sobre risco de empréstimo, adaptado de Camilo e da
Silva (2009).
As folhas indicam as classes rotuladas, os nós — que não são folhas —
podem ser vistos como condicionantes, por fim, os ramos definem
encaminhamentos, definidos a partir dos resultados dos testes
condicionais. A Figura 2 mostra um exemplo de arvore de decisão.
26
A classificação via árvore de decisão se processa da seguinte forma:
uma tupla não rotulada é testada em uma árvore de decisão, de forma
que seus atributos sejam comparados com os nós condicionantes. A partir
dos resultados obtidos nessas comparações, traça-se um caminho,
através dos ramos, que culminará na identificação da classe atribuída à
tupla testada.
Para a construção das árvores, foram propostos algoritmos como:
ID3 (Iterative dichotomiser 3), C4.5 (uma atualização do ID3) e CART
(Classification and regression tree), que utilizam uma metodologia top-
down12 para realizarem tal procedimento.
O cerne da construção diz respeito à configuração dos atributos que
serão submetidos aos testes. De maneira geral, aqueles que possuem a
maior capacidade de discriminar as categorias existentes comporão os
condicionantes dispostos nos níveis superiores da árvore.
Para mensurar essa característica, são utilizados algoritmos de
seleção de atributos. Tais métodos, além do papel de seleção dos
melhores atributos para discriminação, indicam os pontos de corte
(valores dos atributos que definem os ramos de encaminhamento) e, por
conseguinte, determinam os caminhos de crescimento da árvore.
Em linhas gerais, se deseja obter, ao final de cada processo de
partição, nós derivados tão puros quanto possível. Um nó dito puro é
aquele em que a partir dele só se encontram tuplas da mesma classe.
12 Que parte dos nós superiores até alcançar as folhas da árvore de decisão.
27
Um método bastante utilizado para a seleção de atributos, o índice
de Gini, possui como métrica a “impureza” atribuída a um conjunto de
tuplas de treinamento, calculada por:
( ) ∑
onde é a probabilidade de uma tupla pertencer à classe Ci, valor
correspondente ao percentual de cada classe rotulada no montante.
Os algoritmos de seleção de atributos catalogam cada atributo que
descreve a tupla de teste e aquele que possui maior grau de impureza é
escolhido como atributo de partição. Além disso, o ponto de divisão é
escolhido entre um dado conjunto de pontos. Esses pontos correspondem
a valores intermediários de pares adjacentes de valores de atributos
ordenados. Da mesma forma, o valor em que o índice de Gini se minimiza
é escolhido como ponto de divisão. O condicionante (critério de
separação) é composto pelo atributo escolhido e o valor que corresponde
ao ponto de divisão.
O método apresentado (índice de Gini) requer que a árvore se
apresente da forma binária. Assim, a divisão faz com que as tuplas, cujos
atributos de análise são menores que o ponto de partição, sejam
encaminhadas ao ramo à esquerda e o restante ao ramo à direita dos
critérios de separação.
O processo de construção da árvore é executado de forma
recursiva, se encerrando quando as folhas remanescentes são puras, ou
então,quando não há mais atributos a serem testados.
A implementação da árvore não está imune ao fenômeno
denominado overfitting. Esta condição é marcada pelo fato do algoritmo
de classificação se atrelar a detalhes de um conjunto de dados de
treinamento. Isso faz com que o algoritmo perca a capacidade de
generalização, que é crucial para lidar com novos conjuntos de dados de
treinamento.
28
A ferramenta utilizada para atacar tal problema é a “poda” da
árvore. Esse processo — geralmente realizado posteriormente à
construção da árvore de decisão — transforma os nós condicionantes em
folhas rotuladas com a classe em que se observa maior número de itens a
partir do nó modificado.
Árvores podem ser utilizadas para lidar com dados numéricos,
apresentados como uma escala de números reais. Neste caso elas são
denominadas “Árvores de Regressão”. Tanto a estrutura de árvore, quanto
os procedimentos apresentados são preservados na nova abordagem. A
diferença recai sobre o critério de partição, no caso das árvores de
regressão usa-se o erro quadrático médio (MSE - Mean-squared Error)
para definir tanto o ponto quanto o atributo utilizados para a partição.
2.2. Pesquisas no Twitter
Sistemas de informação global, tais como a WEB, passaram por um
grande processo de difusão e atualmente possuem um papel vital na
indústria da informação (HAN e KAMBER, 2006, p. 3).
Como defendido anteriormente, os dados públicos do Twitter têm
sido utilizados como base para muitos trabalhos, boa parte de natureza
puramente estatística, e outros com propósitos de extração de
conhecimento, utilizando a metodologia de KDD.
O Twitter tem sido utilizado extensamente como uma forma de
“Sensor Social”, uma maneira popular de dizer que é possível rastrear a
reação de pessoas ante os eventos, através de suas postagens. Para tal,
Sakaki et al. (2010) realçam a importância da característica de tempo
real13 do Twitter, tratando como “evento” uma classificação arbitrária de
uma região no espaço/tempo.
13 O conceito de “Tempo Real” utilizado aqui advém de sua característica de
simultaneidade entre o acontecimento do evento e sua narração, que difere do significado do termo para a ciência da computação.
29
Análises que objetivam estudar a rede de microblogs, que atuam
como “Sensor Social” a partir de informações geo-localizadas, são
realizadas para estudo de fenômenos naturais, tais como terremotos
(SAKAKI, OKAZAKI e MATSUO, 2010), furacões (BACKSTROM, KLEINBERG
e KUMAR, 2008) e também doenças epidemiológicas (GOMIDE J., F., et
al., 2011), dentre várias outras possibilidades.
Em outra classe de eventos, se encontram aqueles programados
para ocorrerem em uma determinada data e hora. Inúmeros estudos
foram feitos tendo como base de fundo as eleições Estadunidenses (2008
e 2012). Pennacchiotti e Popescu (2011) utilizam como um dos critérios a
distribuição das postagens ao longo de um intervalo de tempo, critério-
chave para as pretensões do trabalho a ser apresentado.
No contexto da classificação de usuários, alguns trabalhos se
destacam. Contribuições relevantes, no que diz respeito à identificação de
perfis de acordo com o comportamento de usuários, foram feitas por
Benevenuto et al. (2010) para a identificação de spammers14.
Pennacchiotti e Popescu (2011) utilizam-se de vários temas para testar
um mecanismo de aprendizado de máquina dentre eles, a afiliação política
e a simpatia por uma franquia de cafeteria. Este estudo possibilita
extrapolar o conceito de fãs por outra entidade — times de futebol
permitem tal análise.
Ainda sobre comportamento de usuários no Twitter Bigonha et al
(2010) propõe uma técnica para medição de influência (de usuários) no
Twitter. Tal técnica possibilitou a separação entre simpatizantes e
detratores de uma marca de refrigerante. Tal separação é
indubitavelmente importante para caracterizar membros que postam
mensagens a respeito de um time.
14 Usuário que espalha spams na rede. O spam é uma mensagem que contém
propaganda não solicitada, em muitos casos com intuito malicioso.
30
Classificar o produtor de informações de acordo como o teor de suas
mensagens, como forma de expressão ou de caráter noticioso, foi
abordado por Choudhury et al. ( 2012), servindo como ponto de partida
para proposição de critérios que permitem diferenciar pessoas e páginas
de notícias.
As pesquisas sobre o futebol brasileiro no Twitter são realmente
parcas. De forma indireta, Rebustini et al. (2011) classifica reportagens de
acordo com a repercussão de mensagens postadas no Twitter por
entidades relacionadas a esportes de alto nível — categoria onde o
Brasileirão se encontra — identificando se a mensagem possui teor
provocativo, expositivo, esclarecedor, dentre outras possíveis intenções.
2.3. Comportamento de Torcedores de Times de Futebol
Tanto de Morais (2010) quanto de Assis (2008) concordam que o
assunto “futebol” é pouco explorado no ambiente acadêmico.
Em um país onde o futebol está embebido em suas entranhas,
seria normal supor que a produção sobre temas relacionados a
esse assunto fosse farta. Mas não é assim. Poucos estudos foram
publicados sobre esportes e, mais especificamente, futebol no
Brasil. (ASSIS, 2008).
A contribuição do futebol para a sociedade brasileira é discutida por
de Morais (2010), que também discute o conceito de fanatismo e a
evolução da forma de torcer do Brasileiro.
A maior parte dos estudos sobre o tema é permeada por aspectos
mercadológicos, estes impactados pelos perfis dos torcedores. Cáceres
(2010) realiza uma vasta revisão na literatura acerca de tipos de
torcedores, investigando a relação entre perfis de torcedores e
características de consumo — voltada à aquisição de produtos
relacionados ao time de torcida.
31
Ainda na mesma vertente Giulianotti (2012) propõe uma taxonomia
de identidades de torcedores. Tal classificação utiliza, além de perfis de
consumo, a intensidade da relação entre o torcedor e sua equipe. Thorne
e Bruner (2006) tratam do fanatismo relacionado a diferentes temas. Sua
pesquisa indica que há certas características comuns encontradas em fãs
de diferentes entidades.
Embasando-se em uma abordagem psicossocial, Wachelke et al.
(2008) utiliza-se de duas escalas, constituídas de questionamentos que
apontem graduações de comportamento fanático.
O aspecto violento das torcidas organizadas (instituições criadas
como forma de expressão coletiva da paixão pelo time) é abordado por
Assis (2008). Tal estudo aponta de uma maneira mais clara a forma de
expressão de torcedores fanáticos.
O estudo de Dutra e Silva (2012) aborda manifestações de
torcedores rivais, sob a roupagem das provocações bem humoradas, que
se acentuam na ocorrência de fracassos dos adversários.
32
3. Metodologia
Neste capítulo são apresentadas as etapas executadas para a
concepção do trabalho. Na Seção 3.1 é apresentada a forma de coleta dos
dados. A seção 3.2 trata dos procedimentos de redução do banco de
dados. Na seção 3.3 são apresentados os modelos utilizados no trabalho.
Na seção 3.4 serão apresentados os conceitos que regem as pesquisas
realizadas. Na seção 3.5 são explicitados os perfis de usuários, alvos de
estudo e o processo de inspeção das páginas.
3.1. Coleta de Dados
Como citado na seção 1.5, foi utilizada a API Streaming do Twitter
para a coleta automática de mensagens que se referem ao Campeonato
Brasileiro.
A API do Twitter possibilita a extração de dados de maneira
simplificada e bem documentada15. Diversos tutoriais são apresentados
por (RUSSELL, 2011) a fim de guiar o desenvolvedor na execução de
diferentes consultas.
O mecanismo no qual se baseia a API, prevê a coleta quando é
verificada no corpo de uma mensagem a existência de ao menos uma
palavra-chave dentro de um conjunto informado pelo consultor. A escolha
criteriosa das palavras-chave que compõem esse conjunto é de extrema
importância.
15 A documentação está descrita no site: <https://dev.twitter.com/docs/streaming-apis>
33
Do ponto de vista dos termos que se referem ao Campeonato
Brasileiro, mais precisamente aqueles referentes às equipes que o
compõe, é necessário incluir dentre as palavras chaves:
Nomes das equipes (p. ex. Flamengo);
Adjetivos que qualificam o torcedor (p. ex. Vascaíno);
Alcunhas dos times (p. ex. Timão);
Referências às cores dos times (p. ex. Tricolor).
A inclusão de tais termos objetiva minimizar o problema de erros na
captura do tipo “falso negativo16”. Para uma abrangência maior ainda da
coleta, podem-se acrescentar variações comuns nas palavras, tais como a
flexão de número, o uso de aumentativo/diminutivo e, em alguns casos,
erros comuns de grafia e o uso, ou não, de acentuação.
Outro tipo de coleta errônea que pode ocorrer é a do tipo “Falso
Positivo17”. Uma proposta para se contornar tal problema, se tratando de
palavras ambíguas, é fazer uma avaliação do contexto da mensagem
como tratado por Walton e Macagno (2009)
Será utilizado um conjunto de dados previamente rotulados por um
mecanismo de reconhecimento de entidades — neste caso as entidades
são as equipes do brasileirão — a partir de termos que as identifiquem.
3.2. Redução do Banco de Dados
Fayyad et al. (1996) preconizou o aumento da dimensão dos bancos
de dados tanto no sentido do número de registros quanto na quantidade
de campos. Tal previsão é confirmada no caso dos dados coletados do
Twitter: sua característica de microblog o torna um sistema dotado de um
grande fluxo de mensagens curtas.
16 Negligência na coleta de dados relacionados ao tema de consulta.
17 Coleta de dados não relacionados ao tema de consulta.
34
No caso da coleta abarcar temas populares — como é certamente o
caso das equipes brasileiras de futebol — a população do banco de dados
se mostra expressivamente elevada. A coleta realizada pelo Observatório
do Brasileirão culminou em um banco de dados da ordem de dezenas de
milhões de elementos!
Os registros coletados são dotados de dezenas de atributos. O
número elevado de atributos se deve ao fato de estarem embutidos no
registro dados referentes à mensagem publicada, ao seu emissor e
também aos resultados do mecanismo de identificação das equipes
mencionado em 3.1.
Cada registro possui um tamanho, em memória, de poucos
kilobytes. O montante, por sua vez, é da ordem de centenas de gigabytes.
Assim sendo, o manejo desse volume de memória demanda alta
capacidade de processamento. Tal panorama denuncia a necessidade do
emprego de métodos de redução do banco de dados — poderiam ser
empregados também métodos capazes de tratar grandes volumes de
dados, entretanto a existência de um grande volume de informação
considerada irrelevante reforça o emprego de técnicas de redução do
banco de dados.
3.2.1. Seleção de Subconjunto de Atributos
Dentre as técnicas de redução de dados mais comuns a seleção de
um subconjunto de atributos é de especial interesse. (HAN e KAMBER,
2006, p. 73) pontua que atributos irrelevantes, pouco relevantes e
redundantes devem ser detectados e removidos. Muitos dos campos
existentes nos registros se apresentam dessa forma, como estes são
vistos apenas como lastros para o processamento, a remoção é
empregada.
Antes de se aprofundar no algoritmo empregado para tal, deve-se
apresentar a forma em que os dados estão estruturados.
35
O formato JSON
O formato JSON foi originalmente criado por Douglas Crockford para
representar formas de dados no ambiente JavaScript18. Posteriormente
passou a ser utilizado para intercâmbio de dados entre computadores,
graças a sua estrutura compacta e simplicidade de uso.
Dessa forma, ele tem sido bastante utilizado em novas APIs. O
Twitter possui, nativamente, suporte ao formato JSON19. As estruturas de
dados em JSON são construídas utilizando-se dos caracteres
delimitadores, descritos na Tabela 2.
Tabela 2 - Função dos caracteres especiais em JSON.
Caractere(s) Ferramenta
[] Delimitam um vetor
{} Delimitam uma estrutura
“” Delimitam os nomes dos campos
: Separa os campos dos dados
, Separador entre os campos
O formato permite que os tipos de dados sejam aninhados, isto é,
pode haver estruturas dentro de outras, vetores dentro de estruturas, e
ainda estruturas dentro de vetores. São permitidos dados na forma de:
valores numéricos, booleanos (verdadeiro ou falso) e cadeias de
caracteres, neste caso apresentadas entre aspas.
Um exemplo de registro em JSON é mostrado na Figura 3. Neste é
descrita uma estrutura fictícia contendo resultados obtidos de um
identificador de equipes mencionadas em textos.
18 Uma linguagem de programação interpretada com enfoque em desenvolvimento para WEB.
19 A página dinâmica:
<https://search.twitter.com/search.json?&q=brasileirão&rpp=1&page=1> traz a última postagem contendo em si a palavra “brasileirão” estruturada em JSON.
36
Figura 3 - Exemplo de uma estrutura em JSON.
O programa de redução de atributos
O mecanismo de redução de atributos foi construído em C++20. Os
requisitos que guiaram sua concepção foram: capacidade de remover os
campos irrelevantes, manutenção dos campos de interesse para o
trabalho, assim como a integridade da estrutura em JSON. A minimização
do tempo de execução do algoritmo também é um requisito importante.
O algoritmo é pautado em operações sob uma longa cadeia de
caracteres — cerca de quatro mil por registro — que segue um padrão de
formatação (Definido pelo JSON).
Apesar do padrão do registro das postagens do Twitter ser bem
definido, existe certa variabilidade na apresentação dos resultados. Isto se
configura como um desafio para a proposta de um mecanismo
automático. Os principais problemas identificados foram:
20 Linguagem de programação desenvolvida por Bjarne Stroustrup a partir da Linguagem C. <http://www.cplusplus.com/>
37
Incompatibilidade de tipos: Os mesmos campos podem apresentar
diferentes tipos de dados.
Campos adicionados ao longo da coleta: Durante o período de coleta
o Twitter adicionou ao registro das postagens novos campos como a
possibilidade de colocar conteúdo multimídia (fotos e vídeos).
Variação na sequência de campos: A sequência dos campos
presentes é violada em alguns casos.
No que se refere ao formato JSON, o principal problema identificado
é o caso em que a vírgula (caractere especial do formato, vide Tabela 2) é
utilizada como caractere de pontuação.
Para contornar os problemas apresentados são executados testes
sistemáticos, as inconsistências identificadas são prontamente corrigidas.
O mesmo ocorre com registros em que ocorre algum tipo de violação na
estrutura JSON. Neste caso, no entanto, os registros não conformes são
eliminados como forma de “Limpeza de Dados”, prevista por (HAN e
KAMBER, 2006, p. 61).
O procedimento de redução de atributos
Um “laço” percorre linha após linha do arquivo que contém os
dados, as copiando em um espaço de memória, na forma de uma string21.
Um ponteiro percorre os itens da string. Associados a ele, está um
conjunto de buffers22 que possuem função como: armazenar os caracteres
que delimitam o início da descrição do campo, início e fim da apresentação
do conteúdo e fim do registro.
Após um campo ser identificado, é definido se este é de interesse.
Caso afirmativo, seu conteúdo será transmitido ao destino e, caso
contrário, os caracteres referentes ao seu valor serão ignorados.
21 Cadeia de caracteres.
22 Espaço em memória para manobras temporárias.
38
Além dos campos e conteúdos, os caracteres de delimitação próprios
do JSON são copiados. Assim, garante-se que a sintaxe referente ao
formato seja preservada, mantendo-se a natureza original dos dados.
3.2.2. Seleção de Usuários e Mensagens
Na seção 3.2.1 foi abordada a aplicação de uma técnica que culmina
na redução da dimensão do banco de dados no sentido do número de
atributos. Todavia, a redução se faz necessária também com o intuito de
diminuir a quantidade de registros existentes. Tais métodos serão
abordados nesta seção.
Seleção do time de estudo
A primeira decisão tomada no sentido de diminuir o número de
registros é a escolha de apenas uma equipe para análise. Além do
objetivo já anunciado, tal decisão visa delimitar o escopo de análise. Isto
é importante, pois se busca uma análise centrada na relação íntima dos
torcedores com seu time. Esta abordagem, no entanto, não seria possível
caso se utilizasse o montante indistinto de usuários que publicam
mensagens sobre times futebol.
A redução do número de registros é baseada no descarte de
mensagens não referentes ao time escolhido. Tal tarefa é realizada pelo
programa de redução de atributos descrito anteriormente. A identificação
dos times citados, por sua vez, é realizada por um mecanismo de
classificação construído pelo Observatório do Brasileirão (mencionado na
seção 3.1).
Os rótulos atribuídos às equipes não estão totalmente protegidos de
erros do tipo “falso positivo”. Sendo assim, a não ambiguidade dos termos
que referenciam as equipes é um critério que guia a escolha do time a ser
estudado. Outro critério relevante é o tamanho da torcida da equipe.
39
Por atender positivamente à condição referente à ambiguidade dos
termos, que o referenciam, e também por ser considerado o time de
maior torcida do Brasil, definiu-se o Flamengo-RJ como time de estudo.
Uma vez que o foco da pesquisa é o Campeonato Brasileiro, a
escolha pelo Flamengo é reforçada, já que em 2012 o time não participou
de outras competições futebolísticas simultâneas ao torneio ao longo da
competição — isso porque o Flamengo foi eliminado prematuramente da
Taça Libertadores da América23 e da Copa Sul-Americana24.
Seleção de usuários de acordo com o número de mensagens
O processo de remoção incide também sobre usuários que postam
poucas mensagens referentes ao Flamengo. Tal atitude objetiva definir
quando um usuário que menciona times no Twitter pode ser de interesse
para análise.
O que sustenta a importância de tal atitude é a existência de pouca
informação a respeito do comportamento do usuário. A não remoção
desses usuários potencializaria a existência de casos “falso-positivos” da
coleta.
Como um exemplo, expõe-se o caso de um usuário cujos registros
se encontram no banco de dados apenas por ele ter feito poucos
comentários reclamando do barulho de foguetes na comemoração de um
time vitorioso. Em casos como este, não existe um vínculo significativo
entre o usuário e o time, portanto tal indivíduo não seria um alvo de
interesse do estudo.
23 Principal competição futebolística da América latina organizada pela
Confederação Sul-americana de Futebol (CONMENBOL) <http://www.conmebol.com/pt-br/content/copa-libertadores-0>
24 Segunda competição internacional em importância, também organizada pela
Confederação Sul-americana de Futebol (CONMENBOL) <http://www.conmebol.com/pt-br/content/copa-sul-americana-0>
40
Para a definição do valor do limite inferior — referente ao número de
materiais produzidos por um indivíduo que faça com que ele seja mantido
na base de dados — contou-se com o auxílio de um gráfico que relaciona
o número de usuários que possuem certas quantidades de mensagens. A
Figura 4 apresenta a distribuição de usuários que produzem entre 38 a 53
mensagens referentes ao Flamengo durante o período de coleta.
.
Figura 4 - Distribuição dos usuários pelo número de mensagens referentes ao Flamengo
postadas.
A Figura 4 mostra ainda que a distribuição do número de usuários
que postam certo número de mensagens segue uma função potência, ou
seja, poucos usuários postam uma grande quantidade de mensagens, e
existe uma grande quantidade de usuários que emitem poucas
mensagens.
Os resultados apresentados na Tabela 3 reforçam essa
característica, uma vez que mais da metade dos usuários postaram
apenas uma única mensagem relacionada ao Flamengo.
41
Tabela 3 - Percentual de usuários por faixa de número de mensagens.
Número de Mensagens Valor Percentual
1 51%
2 a 37 40%
38 a 100 8%
Mais do que 101 1%
O valor do limiar escolhido foi 41, este valor indica que o usuário
postou pouco mais de uma postagem por rodada, assim, são pré-
selecionados para pesquisa menos de 2% dos torcedores.
Seleção de usuário de acordo com critérios espaços-
temporais
Informações sobre a localização geográfica do emissor são
importantes para que seja determinada a correta relação entre o
momento da postagem e os momentos do campeonato.
O mecanismo de inferência da localização do usuário a partir da
localização de seus relacionamentos no Twitter, proposto por (DAVIS,
PAPPA, et al., 2011), é empregado posteriormente à coleta dos dados,
possibilitando um incremento significativo de usuários com indicações
geográficas.
A partir do dia 20 de outubro de 2012, nas regiões: Sul, Sudeste e
Centro-Oeste, por causa da adoção do horário de verão25, ocorre o
adiantamento do horário, nessas regiões, em uma hora.
A identificação do local de emissão das mensagens permite
identificar se em tal localidade ocorre o horário de verão. Tal informação é
de suma importância, uma vez que a informação temporal existente no
Twitter não leva em consideração essa alteração. O atributo temporal do
25 Medida adotada pelo governo federal com intuito de redução do consumo de
energia. Os relógios existentes nessas regiões foram adiantados em uma hora, voltando ao normal em 17 de fevereiro de 2013.
42
Twitter é compatibilizado — atrasado em uma hora — de acordo com a
aplicação ou não do horário de verão na localidade identificada.
A separação entre os estados de acordo com a adoção do horário de
verão é feita a partir de uma simplificação, empregando-se uma
delimitação a partir de retas paralelas e meridianas. Caso o ponto
referente às coordenadas geográficas atribuídas ao emissor esteja abaixo
da demarcação, infere-se que o horário de verão é adotado.
O percentual de registros com identificação geográfica de um
usuário abaixo de 90% é considerado impreciso culminando com sua
remoção do banco de dados. Quando o usuário não é removido, mas há
um conjunto de coordenadas faltantes no registro é usado o par de
coordenadas mais frequente atribuído ao usuário. (HAN e KAMBER, 2006,
p. 62) prevê tal abordagem para valores ausentes.
Um atributo de fundamental importância, previsto nos registros
coletados, é o campo que se refere ao fuso-horário declarado pelo
usuário. Tal valor é dado em medidas do número de horas relativo ao
meridiano de Greenwich26. Os valores “-3” e “-4” são encontrados na
porção continental do Brasil27, apenas tais valores são considerados.
Quando mais de um terço dos atributos de fuso-horário de certo
usuário são vazios, o usuário é desconsiderado. Dessa forma, seus
registros são removidos do banco de dados.
Quando é encontrado mais de um fuso-horário nos registros do
usuário, porém são encontrados também registros faltantes, a remoção do
usuário é realizada — a fim de evitar que se atribua valores
26 Linha meridional que divide o globo terrestre entre ocidente e oriente, serve com referência de longitude.
27 O valor “-3” se refere aos estados das regiões sul, sudeste, nordeste. Tal valor
também é atribuído aos estados do Pará, Tocantins, Amapá, Goiás e o Distrito Federal. Aos demais estados é atribuído o valor de UTC de “-4”
43
erroneamente. No último dos casos é atribuído a todos os registros do
usuário o único fuso-horário taxado em suas mensagens.
Os procedimentos apresentados nessa seção culminaram em um
conjunto contendo o montante de registros de 3995 usuários. A fim de
tornar o processo de inspeção (apresentado em 3.5.1) factível, foram
selecionados cerca de um quarto desse total (1004 usuários
acompanhados de seus registros). A seleção foi realizada de forma a
priorizar os usuários com mais mensagens (a fim de estimular a coleta de
perfis de interesse), porém mantendo uma quantidade relevante dos
demais.
3.3. Modelagem
Nos processos subsequentes, utiliza-se o MATLAB28 como plataforma
de desenvolvimento. A escolha por tal ambiente se deve ao fato deste
possuir uma linguagem própria intuitiva e fácil de manipular, além de
possuir nativamente ferramentas de Mineração de Dados.
3.3.1. Hierarquia Conceitual de Tempo
O Campeonato Brasileiro possui uma estrutura baseada em eventos
— dotados de data, hora e local para serem realizados —, como exposto
em 1.4. Utilizando-se de informações como o início e fim dos jogos,
disponíveis em (COMISSÃO BRASILEIRA DE FUTEBOL, 2012), pode-se
modelar a estrutura de tempo do Brasileirão.
Assim como apresentado por Han e Kamber (2006), o Brasileirão
pode ser visto como sendo uma “hierarquia conceitual de tempo”.
28 O Matlab® é um produto desenvolvido pela MathWorks®, sendo apresentado
como um ambiente interativo para computação numérica, visualização e programação. <http://www.mathworks.com/products/matlab/>
44
A abordagem via hierarquias conceituais é de especial interesse,
pois permite modificar o escopo temporal das pesquisas pretendidas,
abordadas em 3.4, com maior facilidade.
Como discutido anteriormente, na seção 3.2.2, para se desbravar a
relação entre o torcedor e seu time é necessário que a análise seja
direcionada aos eventos relacionados ao time de estudo. Sendo assim, é
utilizada uma hierarquia conceitual baseada nos mesmos, a despeito da
que representaria o Brasileirão. Esta seria indicada caso a análise fosse
estendida a usuários que mencionam os diversos times do campeonato.
A partir de um Timestamp, alterado pelas devidas compatibilizações
de fuso-horário e de horário de verão, é possível, através da hierarquia
utilizada, se obter respostas para algumas questões, tais como: “a
postagem da mensagem ocorre durante o campeonato?”; “ocorre durante
uma rodada?”; “ocorre durante o jogo do Flamengo?”; “ocorre durante o
intervalo de um jogo do Flamengo?”.
Para responder tais perguntas são necessárias, no entanto,
definições de contorno, que estabeleçam o momento de início e término
de cada um dos níveis da hierarquia.
A hierarquia de tempo empregada, no que diz respeito aos níveis de
tempo utilizados, é resultado de um esforço de enxergar o campeonato do
ponto de vista do torcedor. Sendo assim, as unidades de tempo que
compõem a estrutura do torneio são mantidas, no entanto são
adicionados novos níveis temporais, com o intuito mencionado.
Os principais níveis de tempo da hierarquia utilizada são
apresentados a seguir.
Interno ao Jogo
As unidades de menor granularidade de tempo se encontram em
subdivisões dos “Jogos de interesse” — estes se referem às partidas em
que o time alvo de estudo (Flamengo) está em campo.
45
A divisão se incide sobre o intervalo de tempo compreendido entre o
inicio e o final do jogo previsto, tal período é dividido em sete partes de
quinze minutos. São agregados às subdivisões outros dois blocos de
mesma duração, um anterior e outro posterior ao duelo.
O motivo desse acréscimo segue a intenção de considerar definições
de tempo do ponto de vista do torcedor — em tais momentos acontecem
os rituais de preparação do torcedor para a partida e a repercussão de
comentários dos jogadores e comentaristas ao final do embate. O outro
objetivo dessa atitude é amenizar os efeitos de acréscimos e atrasos nas
partidas.
A partir da modelagem mencionada, são passíveis de identificação
entidades como: primeiro tempo, segundo tempo, intervalo. A partir delas
é possível determinar os momentos em que o jogo está ou não em
andamento.
Esta abordagem é levada à definição do domínio de tempo atribuído
a um jogo de futebol, portanto define-se que seu início ocorre quinze
minutos antes do tempo previsto de início da partida e se encerra ao final
da extensão apresentada.
Envolvendo o Jogo
Análises preliminares indicaram que o percentual de torcedores que
postam mensagens sistematicamente durante os jogos do time é
consideravelmente baixo (menos de um quarto do total). Muitas
considerações, no entanto, dependem dessa característica para que sejam
tecidas afirmativas acerca do comportamento do usuário.
Diante disso, resolveu-se modelar uma unidade de tempo mais
abrange do que aquela referente à partida. Arbitrou-se que esta
compreende o espaço de tempo entre um dia antes e outro depois da
delimitação temporal atribuída aos jogos. São definidas unidades de
tempo advindas de recortes dessa envoltória: a porção anterior e
posterior aos jogos.
46
Os três níveis definidos aqui se referem a alguns momentos
experimentados pelos torcedores diante dos jogos de seus times. A faixa
anterior ao jogo diz respeito à “expectativa” em relação à partida. Nesse
momento são temas recorrentes as escalações do time e as condições de
jogo: clima, gramado, arbitragem entre outras.
Os momentos posteriores ao jogo dão conta da “repercussão” do
embate. Nesse intervalo de tempo são debatidas diversas questões
referentes ao resultado: os possíveis erros de arbitragem, gols perdidos,
lances bonitos, desempenho de jogadores…
Por fim, a envoltória da partida reflete o “clima” do jogo, uma
denominação de caráter amplo que envolve interações, rituais e expressão
de sentimentos em relação à partida.
Durante a Rodada
Uma rodada é composta por dez jogos distribuídos em diferentes
faixas de horários, de modo que em cada faixa ocorre um ou mais jogos.
Rodadas podem diferenciar-se bastante de acordo com a distribuição dos
jogos e da combinação dia da semana/horário, porém, a maior
singularidade é observada no caso de rodadas que possuem jogos
adiados.
Como previsto em 1.4, a ocorrência destes traz incompletude
temporária à tabela de classificação. Como seus efeitos são observados
posteriormente à rodada, à qual pertencem, decidiu-se por não vinculá-los
a rodada alguma.
É interessante se observar que os horários dos jogos são deslocados
com o horário de verão, contudo a estrutura das faixas de jogos não é
alterada.
Definiu-se que uma rodada é delimitada pelo inicio de sua primeira
faixa de jogos e o final dos jogos de sua última faixa. O período que
compreende o intervalo entre rodadas é denominado “Entre Rodadas”.
47
Por fim, o campeonato é definido de forma bastante simples. Este se
inicia no início da primeira rodada e termina ao final da última rodada. O
conceito de turno, por sua vez, não foi utilizado nas pesquisas.
3.3.2. Repertório do Brasileirão
A identificação de perfis está intimamente ligada ao comportamento
ante ao universo do Campeonato Brasileiro, posto isso é necessária a
coleta de dados de forma a montar um “repertório virtual” contendo
informações dos mais variados tipos que se referem à competição.
A grande maioria das informações está disponível na tabela do
Campeonato Brasileiro, disponibilizada pela súmula da CBF29.
A tabela do campeonato é composta por informações referentes às
partidas, tais como: times confrontantes, horário, data, placar final, local
de realização entre outras informações. Os registros dos jogos são
agrupados de acordo com a rodada em que ocorrem.
Dados referentes à tabela de classificação, apesar de não estarem
explícitos na tabela de jogos, são facilmente deriváveis da mesma.
Outras informações, necessárias para a construção do repertório,
são encontradas em outros sites:
O percentual de ocupação do estádio se encontra no site do Globo
Esporte30;
Um mapeamento31 dos estádios para o Google Earth32.
29 Disponível em:
http://www.cbf.com.br/Competi%C3%A7%C3%B5es/S%C3%A9rie%20A/Tabela/2012 guia: súmula.
30 Disponível em: <http://globoesporte.globo.com/futebol/brasileirao-serie-
a/publicobrasileirao>.
HTML
31 Apresentado em: <http://depokafe.wordpress.com/2007/10/02/440-estadios-
para-google-earth>
48
A tarefa final se consiste em transpor o repertório criado para o
ambiente de desenvolvimento (MATLAB®) na forma de estruturas de
dados. A criação do repertório é feita concomitantemente com um
conjunto de códigos que tem como intuito realizarem consultas sobre seus
dados, de acordo com os objetivos das pesquisas.
3.4. As Pesquisas
O Dicionário Aurélio da língua portuguesa, no verbete pesquisa,
traz: “2. Investigação e estudo, minuciosos e sistemáticos, com o fim de
descobrir fatos relativos a um campo do conhecimento” (FERREIRA,
1993).
Reserva-se o uso da palavra pesquisa, contudo, para designar o
processamento de insumos que tem como intuito extrair características
comportamentais de usuários do Twitter.
Foram realizadas trinta e seis pesquisas que, a partir de diferentes
análises, promovem tais caracterizações. Apenas algumas dessas
pesquisas serão enunciadas, com o propósito de instanciarem os aspectos
considerados no trabalho.
Para a realização das pesquisas são avaliados o conjunto de
registros de cada usuário, a hierarquia conceitual de tempo e o repertório
montado sobre o Campeonato Brasileiro de 2012.
Uma classificação de acordo com o(s) tipo(s) de insumos que
necessitam para serem executadas é proposta, para auxiliar na
apresentação das mesmas. São definidas, então, quatro classes:
Pesquisas puras de tempo;
Pesquisas puras de atributo;
32 Mapa interativo desenvolvido pelo Google, disponível em: <http://www.google.com.br/intl/pt-BR/earth/index.html>
49
Pesquisas gerais;
Pesquisas geográficas.
Pesquisas puras de tempo
São denominadas “Pesquisas puras de tempo” as pesquisas que
necessitam apenas de informações extraídas da “Hierarquia conceitual de
tempo” descrita em 3.3. Tais pesquisas visam observar a distribuição das
mensagens de acordo com os níveis de tempo constituintes da hierarquia,
traçando comparativos entre número de mensagens em diferentes
granularidades de tempo.
Alguns exemplos de pesquisas desse tipo são: o percentual de
mensagens fora do campeonato, a relação entre postagens dentro e fora
do domínio dos jogos, a relação entre postagens após e antes das partidas
do time, dentre outras análises.
Pesquisas puras de atributo
Neste caso, as pesquisas necessitam apenas de atributos presentes
nos registros. São possíveis de serem avaliadas diversas características,
como o numero de marcas de interação próprias do Twitter (apresentados
na seção 1.3) que os usuários utilizam em suas mensagens.
Além disso, é contabilizado o número de mensagens postadas
durante o período de coleta, assim como a relação entre seguidores dos
usuários e páginas que eles seguem. As equipes identificadas no corpo
das mensagens também são alvo de análise.
São avaliadas as distribuições de postagens de acordo com os dias
da semana e horários do dia — nestes casos consideram-se pesquisas de
atributo por necessitarem apenas da informação contida no horário,
dispensando relações com o campeonato propriamente.
Pesquisas gerais
Nas “Pesquisas gerais” são levados em considerações insumos de
diferentes naturezas. Esse tipo de pesquisa tem como via de regra
estabelecer relações entre diferentes informações.
50
Relações entre informações presentes no corpo das mensagens e os
momentos próximos aos jogos do time, são capazes de denotar mudanças
de comportamento de torcedores em tais ocasiões.
A relação entre a hierarquia de tempo e o repertório do Brasileirão
fornece relações importantes no que diz respeito à atitude dos torcedores
de acordo com os adversários do Flamengo. São analisados os números
de postagens publicadas próximo de jogos contra adversários regionais
(Vasco, Botafogo e Fluminense) e adversários importantes de acordo com
a tabela de classificação.
Outro fator passível de ser mensurado é a conexão entre a
quantidade de postagens e o desempenho da equipe. Para tal, faz-se a
correspondência entre o número de postagens e o percentual de pontos
conquistados nas últimas três e oito rodadas. Em um horizonte mais
estreito, é confrontado o volume de mensagens dos usuários após vitórias
e derrotas da equipe.
Pesquisas geográficas.
Pesquisas geográficas levam em consideração as coordenadas
geográficas do emissor. O registro destas, caso habilitado, indica o local
de emissão das mensagens, que em tese é capaz de sugerir a forma em
que o torcedor acompanha a partida.
Posto isso, é possível determinar se o torcedor se encontra no
estádio no decorrer da partida ou não. Para investigar a ocorrência de tal
situação, foi desenvolvido um algoritmo que se processa da seguinte
forma:
A partir do ponto central dos estádios estabeleceu-se um raio que
varia de acordo com a dimensão do estádio — estimada por sua
capacidade numérica de torcedores —, caso a coordenada da mensagem
enviada esteja dentro dos limites do círculo imaginário criado, considera-
se que o torcedor está acompanhando o jogo in loco.
51
Apesar de a pesquisa ser teoricamente possível, tal situação não foi
observada em análises exploratórias subsequentes, portanto as pesquisas
geográficas não foram agregadas ao trabalho.
Uma das principais causas da inabilidade de verificar tal situação é a
cobertura insuficiente de internet móvel no entorno dos estádios
Brasileiros.
3.4.1. Processamento dos Resultados das Pesquisas
Exposto um apanhado geral sobre as pesquisas — a listagem
completa das pesquisas válidas está colocada no Anexo A —, são
explicados a seguir alguns procedimentos empregados de pré-
processamento de dados, que tornam os resultados das pesquisas aptos a
receberem o algoritmo de classificação.
Como pôde ser observado na apresentação das pesquisas, grande
parte delas se baseia na operação de contagem de itens que satisfazem
dadas condições, outras são frutos de comparações.
No que se refere às análises comparativas, o segundo termo de
comparação pode ser um valor fixo (usualmente o número de mensagens
por produzidas pelo usuário) ou então um resultado oriundo de uma
contagem submetida à outra condição.
O valor numérico final atribuído à pesquisa passa por um processo
de normalização. Esta técnica condiciona os possíveis valores a uma dada
excursão, variando normalmente de -1 a 1 ou de 0 a 1 (HAN e KAMBER,
2006, p. 71).
As duas variações enunciadas são utilizadas com objetivos
diferentes. A primeira se emprega em casos de análises comparativas. O
segundo caso, é utilizado quando um dos valores é sabidamente menor
que o outro. A normalização é empregada com objetivo de facilitar a
análise comparativa entre as diferentes pesquisas.
52
Após a confecção das pesquisas, notou-se que cerca de 2% dos
valores são “vazios”. A estes dados são atribuídos os valores médios de
cada pesquisa ao qual se relacionam. Com a execução deste procedimento
o mecanismo de classificação é possível de ser aplicado.
Após a apresentação das formas dos resultados é conveniente
relacioná-las à identificação de perfis de usuários. Tal relação é tecida na
seção 3.5.
3.5. Identificação de Perfis
O principal objetivo do trabalho é diferenciar os usuários que torcem
para o Flamengo. Para isso, é realizada uma categorização a partir de
graus de fanatismo atribuídos aos afiliados ao Flamengo.
Como posto na seção 3.1, os termos atribuíveis às equipes
brasileiras, que disputavam a Série A em 2012, identificam as mensagens
alvo da coleta. Como não se é possível determinar as intenções por detrás
das mensagens coletadas, abre-se margem para a caracterização de
diversos perfis de usuários.
Dessa forma, além dos torcedores afiliados ao Flamengo, são perfis
de interesse fontes noticiosas (e possíveis desdobramentos destas) e
torcedores de times rivais.
Afiliado do Time
A literatura acerca de perfis de torcedores de futebol tem como linha
de base o conceito de “fanatismo”. O Dicionário Aurélio, da língua
portuguesa no verbete fanático, traz: “2. Que adere cegamente a doutrina
e partido. 3. Que tem grande dedicação ou amor a alguém ou algo.”
(FERREIRA, 1993). Tal conceito, no entanto, pode ser definido de maneira
ferramental como sendo: “A força da relação entre o torcedor com seu
time”.
53
Tanto a literatura, quanto o conhecimento comum e ainda uma
pesquisa de opinião, são fontes consultadas para determinar o que se
entende como “um usuário fanático”.
A partir da revisão bibliográfica realizada, foram observadas
diversas nomenclaturas atribuídas aos torcedores, além disso, são
apresentados diferentes quantidades de patamares de fanatismo.
Uma vez que quanto maior a quantidade de níveis de fanatismos
mais difícil é a tarefa de diferenciação entre categorias na etapa de
inspeção, apresentada em 3.5.1. Usam-se, portanto, apenas três níveis:
Torcedor;
Fã;
Fanático.
Torcedores de Times Rivais
A grande maioria dos torcedores de times rivais costuma mencionar
o Flamengo de forma negativa, por isso estes também serão identificados
pelo termo “Detratores”.
O Flamengo, em especial, é um alvo em potencial desse tipo de
perfil. Por ser considerado o time brasileiro de maior torcida este fato
aliado à preferência desta equipe pela mídia — que é alegada pelos
torcedores rivais — gera em grande parte dos torcedores de outros times
uma rivalidade natural.
Há de se avaliar também que o time possui três rivais que o
consideram como principal adversário: Vasco, Fluminense e Botafogo.
Página de Noticias
As páginas33 de notícias são fontes de informações que possuem
respaldo da sociedade em termos de credibilidade. Estas podem ser de
33 A palavra “página” quando utilizada se refere à “página de perfil de um usúario no Twitter”.
54
caráter geral (tratar tanto de futebol quanto de economia e política) ou
então de caráter esportivo.
Os desdobramentos dessa classe dizem respeito à especialização
das notícias em um time, podendo ser também páginas de fã clubes de
jogadores ou também de torcidas organizadas.
3.5.1. Procedimento de Inspeção das Páginas
O processo de inspeção das páginas é realizado com objetivo de
validar os resultados.
As páginas do Twitter referentes ao conjunto amostral, composto
por 1004 usuários, são insumos do processo de inspeção. Sendo assim,
cada uma dessas páginas é avaliada e um rótulo a elas é atribuído dentre
as opções:
Página Inexistente ou Não Conforme;
Página de Notícias Esportivas ou Genéricas;
Página de Notícias a Respeito do Flamengo;
Página de Notícias a Respeito de Outro Time;
Torcedor de Outro Time;
Pessoa Cujo Time de Torcida é Indefinido;
Torcedor do Flamengo;
Fã do Flamengo;
Fanático pelo Flamengo.
A inspeção não considera nenhum dos itens passíveis de ser
identificado pelas pesquisas, isso para evitar algum tipo de tendência.
O processo de inspeção pode ser apresentado em linhas gerais de
acordo com os tipos de entidades envolvidas, no caso da determinação de
fontes jornalísticas tal procedimento é bastante simples.
55
Verificação de páginas de cunho jornalístico
1. Verifica-se se o nome da página não é um nome próprio, isto é, faz
referência a alguma organização.
2. Verifica-se a presença de símbolos ou declarações que evidenciem a
afiliação a algum time.
O passo 1, se confirmado denota que a página é de caráter
jornalístico. Caso o passo 2 seja refutado, define-se que a página é
considerada neutra, se confirmado e o time relacionado é o Flamengo,
define-se que tal página é uma “Página de notícias do Flamengo”. Se a
página for voltada para outro time, tal página é considerada uma “Página
de Notícias a Respeito de Outro Time”.
O procedimento de identificação do usuário como afiliado ao
Flamengo ou torcedor de outra equipe possui a capacidade de indicar
também o nível de fanatismo — no caso de se tratar de um torcedor
afiliado ao Flamengo.
Identificação do time de afiliação
1. São inspecionadas: as imagens componentes do perfil, o nome de
fantasia do usuário e também o texto de autodescrição do usuário a fim
de encontrar indícios acerca do time de torcida.
2. Caso o time de torcida não seja evidenciado no passo anterior são
observados se os vídeos e figuras postadas pelos usuários fazem algum
tipo de referência a algum time.
3. Persistindo a indefinição, verifica-se se dentre as pessoas, as quais o
torcedor segue, existem algumas que são facilmente relatadas a algum
time.
4. Finalmente são observadas as últimas postagens — datadas do mês
de maio de 2013 — publicadas por eles, em busca de indicativos de
torcida.
56
Caso nenhum dos quesitos seja observado, taxa-se o usuário como
“Pessoa Cujo Time de Torcida é Indefinido” ou simplesmente “Não
Identificado”.
Como mencionado, o processo de determinação do grau de
fanatismo atribuído ao usuário afiliado ao Flamengo segue o mesmo
procedimento de identificação do time de torcida. A diferença está
basicamente na quantidade de indícios que reafirmem a identificação com
o clube.
A identificação do Fanático é imediata, os indícios do passo 1 já são
suficientes para identificá-lo. O estereótipo é constituído pelos usuários
que: possuem imagens simbólicas referentes ao time, colocam como foto
de perfil alguma em que esteja trajado com camisa do clube, seu nome de
fantasia possui algum termo que referencie ao Flamengo e, finalmente, a
sua autodescrição faz referência à paixão pelo clube.
Os Fãs costumam ter alguns dos indícios apresentados pelos
fanáticos, aliado a eles, espera-se que o fã tenha em sua coleção de
vídeos publicados, alguns que referenciem o Flamengo.
O Torcedor comum do Flamengo se atém a se apresentar como tal
em sua descrição, ou então postar alguns vídeos sobre a equipe. Há casos
em que a torcida pelo time só é constatada no passo 3 ou então no passo
4 de identificação de afiliação.
Tratamento de casos excepcionais
Páginas que desrespeitam as regras do Twitter são passíveis de
serem suspensas pelo site. Os usuários, também, podem optar por
excluírem a conta ou então apagar todo o conteúdo postado no passado.
Páginas com tais características, caso alvos de inspeção, são consideradas
inexistentes, fazendo com que sejam removidas da análise.
Seguindo os preceitos colocados por Benevenuto et al. (2010) foi-se
possível a identificação manual de usuários considerados Spammers.
57
Foram observadas nessas páginas, onde deveriam estar suas descrições,
propagandas34 típicas de spammers. Tal perfil indesejado é corroborado
pelo fato de todas as postagens conterem URLs (Uniform Resource
Locators) que versavam sobre temas aleatórios (alguns sobre futebol).
Retirando o conjunto de páginas consideradas como não conformes
— que contabilizam 23% do total avaliado —, as 777 páginas restantes
são rotuladas e assim utilizadas como dados de validação do trabalho. A
Figura 5 mostra a distribuição das classes atribuídas às páginas avaliadas.
Figura 5 - Distribuição das páginas válidas, obtidas pela inspeção.
O processo de inspeção, apesar de parecer simples, é dotado de
muitos detalhes que se negligenciados ou superdimensionados poderiam
comprometer a qualidade final de todo o trabalho.
Há casos em que usuários torcem para mais de um time. Alguns
deles nutrem admiração declarada por times internacionais, mesmo
torcendo por times nacionais. O mesmo caso costuma ocorrer com
torcedores de localidades distantes da região Sudeste (onde se encontram
a maioria das equipes que disputam a Série A do Campeonato Brasileiro).
34 São os casos de anúncios chamativos do tipo: “Enriqueça sem sair de casa”.
3% 4%
9%
12%
15%
16%
19%
22%
Página de Notícias do Flamengo
Página de Notícias de Outros Times
Página de Notícias
Não Identificado
Fanático pelo Flamengo
Fã do Flamengo
Torcedor de Outro Time
Torcedor do Flamengo
58
Estes costumam torcer por times da região e também para outro time de
expressão nacional, como o Flamengo.
A tentativa de dimensionar essas duas facetas da torcida é um
grande desafio, o avaliador desavisado poderia interpretar as cores do
time internacional ou regional como sendo de um rival e assim rotular
erroneamente a página.
Outro fato observado são pessoas que adotam uma maneira
jornalística de reportarem os fatos. Estes usuários geralmente se
descrevem como produtores de conteúdos para veículos midiáticos ou
jornalistas autônomos. Tal grupo foi classificado por (CHOUDHURY et al,
2012) como sendo um perfil intermediário entre páginas de notícias e
usuários comuns. Como esta classe não está prevista no trabalho, são
avaliados caso a caso para definir a classe de destino.
Muitas das classificações errôneas se potencializam em casos de
detalhes que exigem um maior nível de atenção. Os vídeos e fotos
postados devem ser avaliados sob a ótica do teor da menção, se é
positiva ou negativa. O mesmo crivo serve para a análise das páginas
seguidas pelos usuários.
A análise criteriosa desses detalhes, em contrapartida, pode se
tornar uma tarefa morosa, principalmente no que diz respeito aos passos
derradeiros da identificação de afiliação (Em que se tem que analisar um
grande volume de informações).
Contribuições voluntárias, que analisem todo o conjunto de dados,
muito provavelmente trariam avaliações errôneas ao longo do tempo —
devido à morosidade do processo de inspeção.
Além disso, a divisão das páginas para inspeção de um conjunto de
voluntários perderia a correlação necessária à graduação dos perfis
quanto ao nível de fanatismo.
Finalmente, seria muito difícil descrever todas as exceções expostas
na forma de regras, e ainda ter a esperança de que os voluntários as
assimilem da maneira correta e as sigam à risca.
59
Dessa forma, a despeito do que é usual em Validação de dados35, o
responsável para a tarefa de definição de rótulos para as páginas foi o
próprio pesquisador.
Afasta-se o argumento de contaminação dos resultados da
inspeção, pela alegação de conhecimento prévio dos dados de entrada,
uma vez que como mencionado: “nenhum dos critérios avaliados na
inspeção são alvos das pesquisas que fundamentam o trabalho”. É
interessante reafirmar que as mensagens avaliadas no passo 4 da
identificação da afiliação são datadas de, no mínimo, cinco meses após a
coleta dos dados.
35 É comum, para a atribuição de rótulos aos objetos de estudo, a análise de especialistas ou voluntários.
60
4. Resultados
A apresentação dos resultados obtidos no trabalho se encontra
dividida em duas partes. Na seção 4.1 são apresentados os resultados
obtidos na forma de métricas indicativas de qualidade. Na seção 4.2 são
discutidos os conceitos por detrás dos resultados das caracterizações e
suas possíveis causas.
Na seção 3.5.1, foi apontado que dentre as páginas indicadas pela
amostra, algumas são impróprias para o uso no trabalho — por se
tratarem de contas excluídas, suspensas e até veículos de propagandas
maliciosas (spams) — sendo então removidas do conjunto de páginas
analisadas.
Os perfis restantes, previstos em 3.5 e identificados em 3.5.1,
estão representados na forma de um diagrama na Figura 6 – Diagrama de
Identificação de Perfis de Usuários. Tal diagrama mostra uma
configuração semântica a eles atribuída. Esta objetiva explicitar diferenças
e semelhanças entre as classes, com o intuito de elucidar possíveis formas
de classificação.
Figura 6 – Diagrama de Identificação de Perfis de Usuários
61
O diagrama pode ser entendido observando-se os eixos (linhas
pontilhadas) que o compõem. As classes que se encontram abaixo do eixo
horizontal se referem a páginas institucionais de caráter noticioso, já as
que se encontram sobre e acima do mesmo representam páginas
pessoais.
O eixo meridional separa as classes de acordo com a polarização em
termos do time de afiliação. Sobre o eixo central, estão as entidades
inferidas como sendo neutras, do lado esquerdo se encontra a classe dos
torcedores de times rivais. Por fim, à direita do eixo central, se encontram
as entidades diretamente ligadas ao Flamengo. Neste caso, o nível de
fanatismo atribuído a cada entidade é evidenciado pela intensidade dos
tons que recobrem os círculos que representam as classes.
As entidades que se conectam através de linhas sólidas fazem parte
de uma mesma superclasse. A superclasse “Fontes Jornalísticas” engloba
todos os tipos de páginas de cunho noticioso, já a superclasse “Afiliados
ao Flamengo” abarca todos os tipos de pessoas que mantém algum tipo
de afinidade perceptível em relação ao Flamengo.
4.1. Resultados Quantitativos
Esta seção apresenta os diversos ensaios realizados para
identificação de perfis. Visando a melhoria na qualidade dos resultados,
algumas decisões de projeto foram tomadas.
Os testes realizados se diferenciam de acordo com o escopo de
análise. A proposta inicial do trabalho é realizar a “Caracterização Global”
dos perfis. Neste caso, os usuários são identificados diretamente de
acordo com as classes apresentadas na Figura 6.
O mecanismo de classificação que será utilizado neste trabalho é a
Classificação via Árvores de Decisão, enunciado em 2.1.2. A decisão do
uso deste método, em específico, remonta à facilidade de extração de
conhecimento acerca da natureza do problema.
62
Tal método de classificação se processa sem a necessidade de
informações prévias — que muitas vezes são inexistentes ou se revelam
como sendo sofismas. Além disso, tal classificador é capaz de lidar com
dados multidimensionais, como se apresentam os resultados das
pesquisas realizadas.
Com objetivo de checar de uma maneira confiável a qualidade dos
resultados obtidos, utilizou-se a validação cruzada do tipo “K-fold Cross
Validation”. Foi utilizada a configuração que prevê a separação dos dados
em 10 partições. Em cada partição, 90% dos dados (escolhidos
aleatoriamente) servem de treinamento para o algoritmo de classificação
e o restante como validação do resultado.
Métricas tradicionais em reconhecimento de padrões são
empregadas para indicar a qualidade atribuída ao processo de
classificação. A precisão determina a porcentagem de acertos do
mecanismo de classificação, sua fórmula é dada por:
,
em que “Vp” é o número de verdadeiros positivos e “Fp” o número de
falsos positivos.
Outra métrica utilizada é a revocação, esta função objetiva
determinar o percentual de itens rotulados, dentre o montante com o
mesmo rótulo, que o mecanismo foi capaz de rotular corretamente. Sua
fórmula é dada por:
,
sendo “Fn” o número de falsos negativos.
Devido à natureza aleatória do processo de validação cruzada, todos
os procedimentos realizados são repetidos 50 vezes. São apresentados
então os valores médios e dos desvios padrões referentes aos valores
empíricos encontrados como resultados das métricas.
63
Os insumos do mecanismo de classificação são os resultados das
pesquisas enunciadas em 3.4 e listadas no Anexo A. Estes refletem
características dos usuários. Dessa forma, a entrada do algoritmo de
classificação se apresenta na forma de uma matriz numérica (777 x 36).
Os dados de saída são uma matriz (777 x 1) contendo os rótulos
(em formato de uma cadeia de caracteres) atribuídos às páginas através
do processo de inspeção enunciado em 3.5.1.
Como apontado anteriormente, a “Caracterização Global” é o ponto
de partida da análise. Todavia a aplicação direta desse procedimento
gerou resultados dotados de pouca qualidade. Estes podem ser verificados
na Tabela 4 - Resultados da em termos de precisão e revocação,
avaliados para cada classe.
Tabela 4 - Resultados da caracterização global aplicada diretamente ao conjunto de
classes.
Entidade Revocação Precisão
Página de Notícias 0,44 ± 0,05 0,54 ± 0,08
Página de Notícias de outros times 0,36 ± 0,04 0,40 ± 0,05
Página de Notícias do Flamengo 0,36 ± 0,06 0,40 ± 0,05
Torcedor de outro time 0,51 ± 0,03 0,47 ± 0,02
Não Identificado 0,21 ± 0,03 0,22 ± 0,03
Torcedor do Flamengo 0,35 ± 0,04 0,36 ± 0,04
Fã do Flamengo 0,32 ± 0,04 0,30 ± 0,04
Fanático pelo Flamengo 0,37 ± 0,04 0,37 ± 0,04
Como apresentado em 2.1.2, as árvores de decisão podem se
utilizar do processo de poda como artifício capaz de aumentar a qualidade
dos resultados — por minimizar o caso conhecido como Overfitting.
64
A poda nesse estágio, no entanto, é contraindicada, pois se verificou
experimentalmente neste teste que ela produz classes inalcançáveis —
nenhum caminho entre os ramos é capaz de chegar até elas. Assim, esse
artifício só será levado em consideração em testes futuros.
Tabela 5 – Comparação da caracterização global inicial com a rotulação aleatória
Procedimento de Classificação Precisão média
Rotulado Aleatoriamente 0,20 ± 0,02
Rotulado via Inspeção 0,37 ± 0,02
A despeito dos resultados imprecisos a Tabela 5 – Comparação
mostra que o teste inicial realizado proporciona um ganho de 85% na
precisão comparando-se à rotulação aleatória dos dados.
Este procedimento consiste na permutação dos rótulos de saída a
fim de desconectá-los de suas entradas correspondentes. A comparação
realizada tem como objetivo estabelecer um ponto de comparação que
possibilite inferências acerca da qualidade da classificação. Este tipo de
comparação será repetido constantemente nos testes subsequentes.
A comparação sugere que realmente existe um padrão que rege os
perfis identificados, mesmo que esse se apresente de forma pouco clara.
Para enfrentar o problema da baixa relevância dos resultados é
necessário que sejam feitas algumas modificações. Como observado na
Figura 5, o número de itens nas classes referentes às paginas de notícias
do Flamengo ou de outros times é baixo, 7% do total.
A manutenção de tais classes, da forma com que se apresentam,
gera uma discrepância elevada entre o número de itens das classes. A
essa circunstância é dado o nome de desbalanceamento e será tratada
com mais detalhes posteriormente.
Tal situação é indesejada, principalmente na aplicação da poda, pois
potencializa o caso de classes inalcançáveis, fato que foi observado nos
teste da caracterização global quando aplicado o processo de poda.
65
A fim de reduzir possíveis problemas encontrados, duas atitudes são
passíveis de serem tomadas. A primeira delas seria aproveitar o fato de
que as classes são derivadas da superclasse “Fontes Jornalísticas” e
englobá-las à classe “Páginas de Notícias”. A segunda seria simplesmente
excluí-las das análises seguintes. A decisão pode ser tomada baseada nos
resultados da caracterização dos membros da superclasse supracitada.
Tabela 6 - Comparação da caracterização dos membros da superclasse “Fontes
Jornalísticas” com a rotulação aleatória.
Procedimento de Classificação Precisão média
Rotulado Aleatoriamente 0,41 ± 0,05
Rotulado via Inspeção 0,73 ± 0,02
Haja vista a discrepância entre os resultados — a classificação via
inspeção é 78% mais precisa que o caso randômico — não é possível
negligenciar as diferenças entre as classes.
Sendo assim, as classes apontadas como minoritárias serão
simplesmente removidas da análise global. A despeito dessa decisão, não
se espera um incremento visível na qualidade dos resultados com essa
atitude, justamente pelo fato de se tratarem de uma parcela pouco
significativa da amostra.
Para obter melhores resultados são necessárias outras
simplificações, como a exclusão dos membros do Twitter que se
encontram na classe em que não identificação explícita do time de torcida
do usuário.
Os elementos da classe mencionada, que correspondem a 12% do
total de páginas, são dotados de uma incerteza inata — não se é possível
identificar, de maneira segura, perfis para esses elementos, já que não se
sabe o time de torcida de tais indivíduos.
Os índices muito baixos de precisão e revocação na identificação
(vide Tabela 4 - Resultados da caracterização global ) sustentam tal
incerteza. Dessa forma, tais indivíduos podem ser considerados como
66
“ruídos” para a classificação e, portanto a desconsideração da classe nas
análises subsequentes é justificada.
Com as remoções enunciadas obteve-se um incremento na
qualidade dos resultados por categoria, apresentados na Tabela 7 –
Resultado da caracterização global, por categoria, após eliminações. A
precisão e a revocação médios aumentaram 16% e 27% respectivamente.
Tabela 7 – Resultado da caracterização global, por categoria, após eliminações.
Entidade Revocação Precisão
Página de Notícias 0,52 ± 0,03 0,59 ± 0,03
Torcedor de outro time 0,63 ± 0,03 0,62 ± 0,01
Torcedor do Flamengo 0,44 ± 0,02 0,42 ± 0,02
Fã do Flamengo 0,35 ± 0,02 0,34 ± 0,02
Fanático pelo Flamengo 0,40 ± 0,05 0,41 ± 0,04
Delimitadas as classes em que a análise se centrará, porém sem
ainda alcançar ainda resultados satisfatórios, fazem-se necessárias
modificações na abordagem.
Neste ponto, pretende-se atacar o estado de desequilíbrio
populacional entre as classes. Para isso, se utiliza de uma estratégia
conhecida em Mineração de Dados como balanceamento de classes.
Prati (2003) aponta que muitos métodos foram propostos na
literatura com este fim. Neste trabalho utiliza-se o método Under-
sampling de balanceamento.
O método enunciado se inicia na criação de um conjunto vazio.
Todos os “N” itens da classe minoritária (que contém o menor número de
itens) são incluídos no conjunto. Posteriormente, são colocados no
conjunto um subconjunto de “N” itens, escolhidos aleatoriamente, das
demais classes.
67
A aplicação desse procedimento no âmbito da “Caracterização
Global” não surtiu melhora significativa nos resultados. Portanto,
resolveu-se abandonar esse tipo de caracterização e adotar uma nova
estratégia, baseada em análises parciais para identificações de perfis.
Desse modo, são abandonados também os descartes apresentados
anteriormente. As novas análises se debruçam em recortes de classes
seguindo as considerações semânticas das classes encontradas, que são
elucidadas pelo diagrama da Figura 6.
Os testes de identificação a serem apresentados objetivam:
Diferenciar páginas de notícias de usuários comuns;
Diferenciar tipos das páginas de notícias;
Diferenciar detratores de afiliados;
Diferenciar graus de fanatismo entre afiliados ao Flamengo.
Como nos testes subsequentes são utilizadas classes balanceadas, o
comparativo com a rotulação randômica é de fácil identificação. Espera-se
que os valores de precisão e evocação, no caso randômico, convirjam para
1/M em que “M” é o número de classes rotuláveis.
A apresentação dos resultados dos testes seguintes, como previsto,
contemplará o emprego do mecanismo de poda da árvore. As colunas
contendo o símbolo “SP” contêm os resultados obtidos sem uso do recurso
de poda. O símbolo “CP”, no entanto, indica que tal recurso foi utilizado.
Tendo em vista que o processo de poda pode ser realizado em
diversos níveis de profundidade, apresenta-se em cada caso a
configuração que apontou resultados mais relevantes. A profundidade da
poda pode ser entendida da seguinte maneira: quanto mais profunda a
poda, menos nós se mantêm presentes na árvore, os que se mantém são
aqueles dotados de maior capacidade de discriminação.
68
Teste 1: Diferenciação entre páginas de notícias e usuários
comuns.
O primeiro teste da nova abordagem diz respeito à diferenciação do
tipo de autor da página. Este permite a separação do conjunto contendo
todas as classes válidas em dois grupos. Como o número de páginas
referentes a usuários comuns é aproximadamente cinco vezes maior que o
número de itens do outro grupo, o balanceamento é fortemente indicado.
Tabela 8 - Identificação dos tipos de páginas retratadas
Entidade Revocação SP Precisão
SP
Revocação
CP
Precisão
CP
Página de
Notícias 0,77± 0,03 0,76 ± 0,03 0,80 ± 0,03 0,80 ± 0,03
Página Pessoal 0,76± 0,04 0,76 ± 0,02 0,80± 0,02 0,80 ± 0,02
Os resultados obtidos no teste estão apresentados na Tabela 8. Os
melhores indicativos de qualidade foram encontrados realizando-se a poda
até o antepenúltimo nível de profundidade. Tal atitude fez com que a
qualidade geral — medida que considera o incremento médio nos índices
de precisão e revocação — aumentasse em torno de 5%.
Esse procedimento culminou em uma qualidade 60% maior que a
rotulação aleatória, além disso, as classes são dotadas de índices
aproximadamente semelhantes em ambas as situações. Dessa forma diz-
se que a classificação é dotada de acurácia, termo que indica que o
classificador é efetivo em seu propósito.
Teste 2: Diferenciação do tipo das páginas de notícias.
Tal tarefa foi previamente enunciada na abordagem da
caracterização geral, porém naquela análise não se aplicou o
balanceamento. Os resultados obtidos estão colocados na Tabela 9. O
procedimento de poda — realizado até o penúltimo nível de profundidade
— aumentou em 7% os valores dos indicadores de qualidade.
69
Tabela 9 - Caracterização dos membros superclasse “Fontes Jornalísticas”
Entidade Revocação
SP Precisão SP
Revocação
CP
Precisão
CP
Página de
Notícias
Genéricas
0,61± 0,10 0,62 ± 0,09 0,67 ± 0,09 0,73 ± 0,11
Página de
Notícias do
Flamengo
0,87± 0,08 0,91 ± 0,05 0,95 ± 0,02 0,93 ± 0,04
Página de
Notícias de
outros times
0,73± 0,09 0,70 ± 0,07 0,76± 0,12 0,74 ± 0,09
A classificação indica uma grande acurácia na classificação das
“Páginas de Notícias do Flamengo”, isso denota que tal entidade é mais
facilmente reconhecida pelo mecanismo de classificação.
Os baixos valores de desvios atribuídos às métricas indicativas de
qualidade, em detrimento aos mesmos das demais classes, se devem ao
fato de que a classe citada é a minoritária.
É interessante observar que a qualidade dos resultados na
identificação de páginas de times rivais é bastante inferior àquela
observada na classe minoritária. Isso é devido ao fato de tal classe ser de
natureza heterogênea, uma vez que é composta por páginas de diversos
times de futebol. A forma de referenciar ao Flamengo possivelmente se
diferencia em termos da rivalidade entre as partes.
Teste 3: Diferenciação entre detratores e afiliados ao
Flamengo.
Nesta análise são consideradas apenas as páginas pessoais, em que
há uma afiliação explícita a algum time de futebol Brasileiro.
70
Os resultados obtidos estão expostos na Tabela 10, estes são
dotados de qualidade considerável, os índices são superiores em mais de
60% do que àqueles atribuíveis à rotulação aleatória. Além disso, com o
processo de poda até o antepenúltimo nível de profundidade experimenta-
se um ganho adicional de 4% nos valores dos indicadores de qualidade.
Tabela 10 - Identificação do time ao qual o usuário é afiliado.
Entidade Revocação
SP Precisão SP
Revocação
CP
Precisão
CP
Afiliados ao
Flamengo 0,81± 0,03 0,81 ± 0,02 0,84 ± 0,04 0,84 ± 0,02
Torcedores de
outros times 0,80± 0,03 0,81 ± 0,03 0,84± 0,02 0,84 ± 0,03
Teste 4: Determinação de graus de fanatismo entre afiliados
ao Flamengo.
Naturalmente, este teste só se aplica aos afiliados ao Flamengo.
Esta análise evidencia a multivariedade atribuída às formas
comportamentais dos indivíduos selecionados nesta análise.
Pelo fato do fanatismo ser abordado como uma graduação dotada de
níveis utilizou-se de uma Árvore de Regressão para esse teste. O emprego
do mecanismo de regressão remonta à necessidade de reforçar a
discrepância entre torcedores e fanáticos.
Tal mecanismo, como exposto em 2.1.2, requer que os “rótulos”
sejam transformados em números reais. Para isso, os valores numéricos
atribuídos às classes foram: “1” para os “Torcedores”, “2” para os “Fãs” e
“3” para os “Fanáticos”. Os resultados obtidos pelo teste estão expostos
na Tabela 11.
71
Tabela 11 - Determinação do nível de fanatismo dos usuários.
Entidade Revocação
SP
Precisão
SP
Revocação
CP
Precisão
CP
Torcedor do
Flamengo 0,47± 0,04 0,49 ± 0,04 0,44 ± 0,09 0,62 ± 0,09
Fã do Flamengo 0,40± 0,05 0,35 ± 0,03 0,57 ± 0,11 0,37 ± 0,03
Fanático pelo
Flamengo 0,43± 0,03 0,46 ± 0,04 0,42± 0,09 0,57 ± 0,06
Como se pode perceber, os índices de qualidade se encontram bem
abaixo daqueles apresentados nos testes anteriores. Apesar disso com a
realização da poda, até o quarto nível da árvore, foram obtidos índices de
qualidade 50% mais elevados do que no caso aleatório.
O fato que chama a atenção nos resultados é a dificuldade em se
determinar um “Fã do Flamengo”, mesmo a revocação tendo aumentado
com o processo de poda, a precisão se mantém muito baixa.
O caráter intermediário de fanatismo, atribuído ao Fã, faz com que
seu comportamento seja mais difícil de ser delimitado. Para corroborar
essa afirmativa foi realizado outro teste, mantendo-se apenas os
torcedores e os fanáticos. A Tabela 12 apresenta os resultados obtidos
com o teste.
Tabela 12 - Diferenciação entre Torcedores e Fanáticos.
Entidade Revocação
SP
Precisão
SP
Revocação
CP
Precisão
CP
Torcedores do
Flamengo 0,69± 0,03 0,68 ± 0,03 0,71± 0,05 0,83 ± 0,01
Fanáticos pelo
Flamengo 0,70± 0,03 0,68 ± 0,03 0,85± 0,01 0,75 ± 0,03
72
Os resultados revelados para a diferenciação entre afiliados, se
atendo apenas aos perfis extremos, foram notavelmente melhores do que
aqueles que foram apresentados anteriormente.
Mesmo sem a aplicação do processo de poda o ganho em qualidade
já supera ao do outro teste, haja vista que os valores dos índices são 57%
maiores que o da rotulação aleatória. Quando é realizada a poda drástica
(até o primeiro nível da árvore), observou-se um incremento nos índices
de quase 80%!
Teste Suplementar: Detecção de Fanáticos.
A identificação de torcedores dotada de alto nível de fanatismo é de
notório interesse social. Posto isso, foi realizado um teste adicional com o
objetivo de isolar torcedores fanáticos do Flamengo das demais classes.
Os dados referentes às páginas atribuídas aos usuários fanáticos
pelo flamengo — que representam a classe minoritária — foram
adicionadas em um conjunto conjuntamente com uma porção de itens
escolhidos aleatoriamente de outras classes, de forma a se manter o
balanceamento.
Os conjuntos referentes à classe majoritária (não fanático) são
modificados a cada época do processo de classificação. Os resultados
obtidos neste teste estão colocados na Tabela 13.
Tabela 13 - Identificação de Fanáticos pelo Flamengo
Entidade Revocação
SP
Precisão
SP
Revocação
CP Precisão CP
Fanáticos pelo
Flamengo 0,70± 0,04 0,70 ± 0,02 0,85± 0,02 0,74 ± 0,03
Os indicativos de qualidade dos testes, sobretudo quando utilizado o
recurso de poda em seu nível drástico, mostram que a identificação é
possível, uma vez que os índices são 60% mais altos que no caso da
rotulação aleatória.
73
4.2. Resultados Qualitativos
Pretende-se reapresentar nesta seção alguns dos testes realizados
na seção 4.1. A abordagem, no entanto, remete a uma característica
especial do mecanismo de classificação, podendo ser vista como uma
análise qualitativa.
Busca-se entender mais a fundo as características que promovem a
diferenciação dos perfis. Isso é possível, uma vez que como apresentado
na seção 2.1.2 a árvore de decisão prioriza os critérios que possuem
maior capacidade de diferenciação de classes.
A investigação acerca dos motivos que levaram a esses critérios
serem dotados dessa capacidade é o principal interesse desta análise.
O procedimento de resgate dessas informações é bastante simples.
É definido o tipo de investigação (como a determinação de graus de
fanatismo) que se queira abordar e com isso as classes que serão
utilizadas, aplica-se uma vez a classificação por árvores de indução (ou
regressão, se for o caso) ao montante de dados de entrada e saída.
Essa configuração permite que se tenha a árvore em sua forma
completa. A partir desse cenário, utiliza-se o processo de poda até se
chegar a uma árvore concisa e dotada de todas as classes previstas pelos
testes.
Neste ponto são apresentados os critérios de maior poder de
descriminação, revertendo-se o processo de poda, os critérios
subsequentes — dotados de um poder menos acentuado de diferenciação
entre classes — são revelados.
Por serem capazes de caracterizar totalmente os perfis de interesse,
a análise incidirá sobre os quatros testes destacados na seção 4.1.
Diferenciando páginas de notícias de usuários comuns
O Twitter tem sido utilizado, de forma crescente, como meio de
propagação de informação por fontes jornalísticas. Para a diferenciação
entre páginas de caráter noticioso e páginas de usuários comuns
74
Choudhury et al. (2012) utilizou-se de informações extraídas tanto do
perfil do usuário quanto das mensagens por eles postadas.
É interessante observar como essa caracterização se revela em
termos da cobertura futebolística no Brasil, uma vez que o esporte
retratado é de grande apelo e importância no âmbito nacional, são
esperadas diferenças (em relação ao trabalho destacado) quanto à
manifestação das instituições que tratam sobre o futebol Brasileiro no
Twitter.
Utilizando-se de algumas das ideias propostas pelo trabalho
supracitado e também de observações quanto à forma dos torcedores se
expressarem a respeito de seus times, foram selecionadas pesquisas
focadas nessa distinção.
A identificação gerou uma árvore aos moldes da Figura 7, onde os
critérios são os nós condicionantes constituídos por um número que se
refere a uma pesquisa específica. Os quatro critérios mais importantes
para a distinção tratada se mantém na árvore. Os demais foram
descartados pelo processo de poda, no entanto estes podem ser
identificados a partir do esboço da árvore completa.
Figura 7 - Apresentação da árvore binária de decisão para a diferenciação entre
pessoas e entidades jornalísticas.
75
Constatou-se que o critério de maior poder de separação foi o que
se relaciona à polidez atribuída ao usuário do Twitter — Índice obtido
através de uma média ponderada entre o percentual de ocorrência de
termos de baixo calão e palavras grafadas em caixa alta nas mensagens.
Usuários comuns tendem a se expressar de maneira mais visceral e,
portanto menos polida. Fontes jornalísticas tendem a manter uma maior
polidez ao se reportarem nos meio de comunicação.
O segundo critério mais importante é o que se refere ao caráter
informativo da mensagem. Esta condição é evidenciada a partir da
presença de URLs no corpo da mensagem, bem como o uso de Hashtags.
Como explicado em 1.3, tais partículas têm como objetivo marcar, e assim
destacar, o assunto das mensagens.
Páginas de notícias tendem a atrair mais seguidores do que
propriamente seguirem outras páginas, tal característica é evidenciada
como terceiro quesito de importância para a separação proposta.
As definições posteriores, obtidas através da observação dos
atributos de separação menos prioritários, permitem a conclusão de que:
os usuários comuns tendem a comentar sobre os rivais regionais mais
frequentemente; as fontes jornalísticas tendem a manter uma frequência
de postagens ao longo do dia mais acentuada; finalmente, estas se
conectam a um maior número de pessoas.
Diferenciando tipos das páginas de notícias
As páginas de notícias a respeito do Flamengo são facilmente
identificadas — a se julgar pelos altíssimos índices obtidos nesta
caracterização, previamente apresentados — pelo percentual das
mensagens postadas que fazem referência ao time.
As fontes jornalísticas referentes a outros times são identificadas
pela flutuação do número de postagens ao longo do campeonato. As
demais páginas de notícias postam com certa frequência ao longo do
torneio e são dotadas de maior polidez no teor de suas mensagens.
76
Descobriu-se na identificação das entidades jornalísticas que as
páginas de notícias referentes a outros times postam mensagens sobre o
Flamengo independentemente da posição em que este se encontra na
classificação do Campeonato. Fato ao qual não se atribui uma justificativa
imediata, reforçando a importância do fato do mecanismo utilizado não
requerer informações prévias, as quais possivelmente não contabilizariam
esse comportamento.
Diferenciando detratores de afiliados
Esta análise visa salientar os atributos que possibilitam diferenciar
os usuários que torcem pelo Flamengo dos torcedores dos demais times.
O critério dotado de maior poder de diferenciação de tais entidades é o
percentual de citação de outros times no corpo das mensagens. Os
afiliados ao Flamengo possuem este índice mais elevado que os demais.
Tal descoberta foi recebida como uma surpresa. Afirmações
categóricas sobre o achado não são seguras, porém, com o intuito de
tentar elucidá-lo, deve-se dirigir a análise para o envolvimento do
torcedor com o time.
Os afiliados possuem um envolvimento com assuntos relacionados
ao time, simulando resultados de confrontos, avaliando possibilidades de
contratações de jogadores de outros times, entre outras atitudes que
culminam na citação de termos relacionados a outras equipes.
Os torcedores de times rivais, em contrapartida, não chegam a esse
nível de detalhamento. Seus comportamentos se atêm à disseminação de
mensagens que fazem referência ao flamengo com teor provocativo e
muitas vezes através de comentários humorísticos. Tal faceta é
diagnosticada por Dutra e Silva (2012) como forma popular de expressão
da rivalidade em redes sociais.
Como apontado em 3.5, o Flamengo é um alvo preferencial de
torcedores rivais, fato confirmado pelo alto número de torcedores de
times rivais identificados na inspeção.
77
O segundo critério de mais importância é o percentual de
mensagens que fazem referência ao Flamengo ao longo do intervalo de
tempo avaliado. Como se é de prever, os afiliados ao time possuem tal
valor mais elevado que os demais.
Verifica-se, através da análise dos critérios subsequentes, que os
torcedores do Flamengo postam mais fora das rodadas que os torcedores
de outros times — corroborando o aspecto referente ao envolvimento com
o time. Além disso, observa-se que a dispersão de mensagens na
decorrência do campeonato é menor entre os Flamenguistas.
Diferenciando graus de fanatismo
O principal objetivo do trabalho é promover a segmentação dos
usuários que demonstram afiliação ao Flamengo, apresentado-a em uma
escala compostas por graus de fanatismo. Tal caracterização foi realizada
na Seção 4.1 utilizando-se de uma árvore de regressão.
O objetivo nesta fase do trabalho é finalmente responder à pergunta
“Quais comportamentos definem o grau de fanatismo do indivíduo?”. As
respostas são obtidas através do procedimento de análise apresentado
nesta seção. Estas serão confrontadas tanto com a revisão bibliográfica
realizada na seção 2.3, quanto com um questionário criado.
O questionário desenvolvido tem como objetivo descobrir quais
características comportamentais a sociedade (representada pela amostra
de participantes do questionário) atribui a um torcedor fanático.
A construção do questionário é baseada em escalas de fanatismo
(WACHELKE, DE ANDRADE, et al., 2008) e conceituações sobre o tema na
literatura. A escolha criteriosa de perguntas permite abrager os conceitos
tratados tanto na inspeção das páginas quanto na extração de
características por meio das pesquisas enunciadas.
Sua realização tem início no dia 01/05/2013 e término em
05/06/2013, foram coletadas 163 respostas. O formulário apresentado se
encontra descrito no Anexo B.
78
Como o resultado esperado de cada pesquisa é sempre superior a
dois — uma vez que sua fundamentação é baseada em critérios que
identificam alto envolvimento com o time, segundo a literatura revisada —
as respostas com média inferior a este valor são descartadas, uma vez
que nestes casos a possibilidade do questionado ter feito interpretações
discordantes com o enunciado é maior.
Os resultados dos valores médios atribuídos e desvios padrões de
acordo com cada conceito comportamental estão expostos na Figura 8 –
Resultados obtidos através do questionário sobre comportamento
fanático.. No Anexo B, os conceitos enunciados são apresentadas de uma
forma mais contextualizada.
Figura 8 – Resultados obtidos através do questionário sobre comportamento fanático.
Apresentado o questionário desenvolvido, retorna-se a atenção à
caracterização de usuários quanto ao grau de fanatismo. O principal
conceito relacionado à separação entre os tipos de torcedores é o que se
chama de Obsessão.
Segundo Wachelke et al. (2008), o comportamento obsessivo, no
contexto do futebol, é definido como aquele em que o torcedor possui o
futebol — nesse caso mais precisamente seu time de torcida — como seu
principal assunto.
0 0,5 1 1,5 2 2,5 3 3,5
Apoio incondicional
Dedicação como expectador
Acompanhamento do time
Interação com torcedores de seu time
O Time como parte de sua identidade
Colecionar tudo que se refere ao time
Atenção exclusiva na hora da partida
Comparecimento
Rivalidade
Mudança de comportamento
Obsessão
Valor Médio Desvio Padrão
79
Indícios de obsessão podem ser obtidos através de pesquisas
referentes ao número de mensagens relacionadas ao time no intervalo de
tempo da coleta de dados. Sendo esse número expresso tanto em termos
absolutos quanto relativos.
Um baixo percentual de mensagens referentes ao Flamengo, dentre
as postagens produzidas no período de tempo avaliado, caracteriza, de
forma contundente, um torcedor comum, dotado de baixo envolvimento
com o time.
Um percentual elevado de mensagens referentes ao time,
consequentemente, dá margem à identificação de perfis mais fortemente
relatados ao time. O valor absoluto de postagens separa os ditos “Fãs” do
time dos torcedores considerados “Fanáticos”.
Um número elevado de postagens referentes ao time leva à
caracterização de torcedores fanáticos. É no mínimo intrigante notar que o
conceito “Obsessão”, presente no questionário através da pergunta
relacionada ao comportamento obsessivo: “Pensa em seu time o dia
inteiro, é seu assunto principal”, tenha tido o menor valor de importância
para os questionados.
Apesar de não se poder identificar de maneira única essa
discrepância, acredita-se que a hipérbole utilizada (“Pensa em seu time o
dia inteiro”) tenha sido interpretada literalmente, levando à descrença
acerca da existência de fanáticos que cheguem a tal comportamento
extremo.
Prosseguindo com a caracterização, os Fanáticos tendem a postar
mais durante as rodadas dos finais de semana. Este fato transgride a ideia
pré-concebida que pontua que o fanático possui acompanhamento
incondicional das partidas, porém, reafirma o fato de que os jogos dos
finais de semana fazem parte de um ritual “sagrado” para o torcedor, cujo
ponto alto é o jogo de seu time.
Fanáticos costumam seguir mais páginas do Twitter do que serem
seguidos por outros usuários. Tal característica, caso a analogia com o
80
acompanhamento de fontes de notícias padrões (jornais e revistas
esportivas) seja válida, revela um comportamento típico de fãs altamente
comprometidos (CÁCERES, 2010).
Em contrapartida, Giulianotti (2012) atribui esse comportamento
para torcedores dotados de baixo grau de fanatismo, colocando que estes
seguem — por meio de fontes de mídia eletrônica (internet) — não só o
clube, mas também os jogadores, técnicos e outras pessoas do futebol.
As linhas controversas são confrontadas com o resultado do
questionário realizado. O comportamento em pauta se relaciona com o
conceito de “Acompanhamento do time” (Quando o torcedor está sempre
por dentro do que acontece com seu time), item apontado como mais
forte identificador de fanatismo de acordo com os participantes do
questionário (vide Figura 8).
Desdobramentos adicionais apontam que os torcedores pouco
envolvidos são caracterizados por variarem significativamente o número
de postagens de acordo com os dias da semana.
A mudança de comportamento em momentos próximos às partidas
é atribuída aos torcedores fanáticos. Cáceres (2010) classifica o jogo
como uma experiência central, não obstante o dia já carregar uma grande
carga emocional.
Os Fanáticos também são responsáveis por mensagens dotadas de
pouca polidez (utilizando-se de palavras de baixo calão e grafia em caixa-
alta). Segundo Preti (1984), tais artifícios servem como forma de
compensação para as insatisfações, atuando como válvula de escape para
sua suas revoltas — ou então demonstrações de euforia.
81
5. Conclusões
O trabalho realizado cumpre o objetivo que se propõe — identificar
perfis de torcedores no Twitter — como é possível de se prever, alguns
perfis são mais facilmente detectados do que outros.
Há casos em que uma pesquisa é capaz de identificar de maneira
muito precisa uma determinada identidade. Muitas vezes essa
identificação é pautada em induções óbvias: “uma fonte jornalística
relacionada ao Flamengo posta muito sobre o time”. Entretanto, há casos
em que os critérios mais importantes não são, de forma alguma, óbvios
(como o caso da menção de times rivais para detecção de afiliação).
Existem ocasiões, nas quais os resultados, tidos como
imprescindíveis, não são verificados como tal pelo processo de
identificação. A previsão de que os detratores postam mais após derrotas
do Flamengo ou em períodos de baixo desempenho do time não se
confirmou como critério importante de caracterização.
Os casos apresentados reforçam a importância do uso do
mecanismo de classificação via árvores de decisão ou regressão, uma vez
que estas prescindem de informações prévias para a realização da
classificação.
A questão que se refere à dificuldade de detectar certos perfis recai
sobre a identificação dos “Fãs do Flamengo”. O grande problema da
identificação de torcedores dotados de um nível intermediário de
fanatismo é o fato do pressuposto que une o procedimento de
classificação e o processo de inspeção não ser sempre verdadeiro.
82
Em outras palavras, o processo de inspeção consegue desvendar um
conjunto de características do usuário:
“O Time como parte de sua identidade”: Menção de termos
referentes ao time tanto no nome-fantasia do usuário, quanto na
descrição.
“Colecionar tudo que se refere ao time”: Coletânea de fotos e vídeos
(e talvez páginas de notícias) a respeito do Flamengo.
“Obsessão”: Decorar a página do perfil com fotos que simbolizam o
clube ou fotos suas trajando o uniforme da equipe.
Em nenhuma das pesquisas realizadas os dois primeiros
comportamentos são retratados, a terceira, todavia é abordada de outra
forma (através de valores relativos e absolutos que se referem ao
Flamengo no período do Brasileirão de 2012).
O pressuposto mencionado se refere à requisição de que a
demonstração de envolvimento com o time, observado através dos
resultados das pesquisas, seja coerente com as características levantadas
na inspeção.
Tais características, curiosamente, se referem aos comportamentos
colocados como menos relevantes para identificação de um perfil fanático,
segundo o questionário apresentado em 4.2, cujos resultados se
encontram expostos na Figura 8 – Resultados obtidos através do
questionário sobre comportamento fanático..
Além disso, a literatura a respeito do fanatismo costuma divergir
bastante na definição dos níveis intermediários de fanatismo. Em suma, o
processo de inspeção pode ser considerado pouco confiável e, de certa
forma, incapaz de lidar com a variabilidade das formas de torcer do
usuário.
Dessa forma o processo de inspeção via análise das páginas do
Twitter é tido como a causa atribuível à dificuldade em se identificar o
perfil “Fã do Flamengo”.
83
Uma estratégia que possibilitaria alavancar os resultados para
identificação dos afiliados ao Flamengo seria convidar os perfis analisados
ao preenchimento do questionário criado, ou então alguma das escalas de
identificação com o time propostas por Wachelke et al. (2008).
A identificação de perfis dotados de alto grau de fanatismo, ponto
chave do trabalho, não apresenta a mesma dificuldade observada na
identificação de fãs. Isso porque indivíduos com tal perfil tendem a
convergir em uma série de comportamentos, mesmo com a alteração do
objeto de adoração (THORNE e BRUNER, 2006).
Em estudos futuros, a pesquisa realizada pode ser aplicada no
restante das equipes do campeonato, isso possibilitaria capturar
semelhanças e diferenças entre as torcidas dos times Brasileiros. A partir
daí, pode-se ter uma boa margem de confiança para responder a pergunta
emblemática: “Qual a torcida mais fanática do Brasil?”.
Nesse ponto, é importante salientar que as análises a respeito do
comportamento de torcedores no Twitter podem versar sobre temas
diferentes do “Fanatismo”. Outro tema de grande apelo, o qual se cogitou
utilizar como norte do trabalho. é a “Rivalidade entre Torcidas”.
Este tema abordado foi por Dutra e Silva (2012) sob o ponto de
vista do humor e por de Assis (2008) no contexto da violência. O
impedimento de tal escolha recai sobre o fato de que as palavras-chave —
escolhidas para mecanismo de coleta — não contemplam os termos
pejorativos, frequentemente atribuídos às torcidas rivais.
O uso de outras técnicas de Mineração de Dados é totalmente
plausível nesse contexto. Uma análise de agrupamento, por não
necessitar de rótulos prévios, possibilitaria expressar o fanatismo na
forma de um valor contínuo.
Por outro lado, a mesma análise revelaria a diversidade de formas
de manifestar a paixão pelo futebol — travestida pelo sentimento que une
o torcedor ao seu time de torcida — que é frequentemente colocada como
forma maior de expressão da identidade brasileira.
84
Referências Bibliográficas
ASSIS, T. C. F. de A Representação Social Da Violência Em
Torcidas. Universidade Católica de Goiás (Dissertação de Mestrado).
Goiânia. 2008.
BACKSTROM, L.; KLEINBERG, J.; KUMAR, R. . N. J. Spatial
Variation in Search Engine Queries. WWW 2008 / Refereed Track:
Search - Query Analysis. Beijing, China: [s.n.]. 2008. p. 357-363.
BENEVENUTO, F.; MAGNO, G. . R. T.; ALMEIDA, V. Detecting
Spammers on Twitter. Proceedings of the Annual Collaboration,
Electronic messaging, Anti-Abuse and Spam Conference (CEAS’10).
Redmond, Washington, USA: [s.n.]. 2010.
BIGONHA, C.; CARDOSO, T. N. C.; MORO, M. M.; ALMEIDA, V. A. F.;
GONÇALVES, M. A. Detecting Evangelists and Detractors on Twitter.
Proceedings of the Brazilian Symposium on Multimedia and the Web
(WebMedia), 2010. Belo Horizonte: [s.n.]. 2010.
CÁCERES, P. P. Fanatismo e Paixão: A Experiência de Consumo de
Torcedores Porto-Alegrenses de Futebol, Porto Alegre, 2010.
CAMILO, C. O.; SILVA, J. C. Mineração de Dados: Conceitos,
Tarefas, Métodos e Ferramentas. Instituto de Informática,
Universidade Federal de Goiás. Goiânia. 2009.
CHOUDHURY, M. de; DIAKOPOULOS, N.; NAAMAN, M. Unfolding
the event landscape on twitter: classification and exploration of user
categories. In Proceedings of the ACM 2012 conference on Computer
Supported Cooperative Work. Seattle,EUA: [s.n.]. 2012. p. 241–244.
COMISSÃO BRASILEIRA DE FUTEBOL. Seção de uploads do site
da Federação Pernambucana de Futebol, 2011. Disponivel em:
<http://www.fpf-pe.com.br/fpf-novo/wp-
content/uploads/2012/06/reg_a2_12.pdf>. Acesso em: 21 Outubro 2012.
85
COMISSÃO BRASILEIRA DE FUTEBOL. Campeões do Futebol. Seção
de anexos da página Campeões do Futebol, 2012. Disponivel em:
<http://www.campeoesdofutebol.com.br/anexos/regulamento_seriea_201
2.pdf>. Acesso em: 21 Outubro 2012.
COMISSÃO BRASILEIRA DE FUTEBOL. www.cbf.com.br. Tabela da
série A do campeonato brasileiro de 2012, 2012. Disponivel em:
<http://www.cbf.com.br/Competi%C3%A7%C3%B5es/S%C3%A9rie%20
A/Tabela/2012/Todos%20os%20Jogos>. Acesso em: 21 Outubro 2012.
DAVIS, C.; PAPPA, G. L.; OLIVEIRA, D. R. R.; ARCANJO, F. L.
Inferring the location of Twitter messages based on user relationship.
Transactions in GIS (Print), p. v. 15, p. 735-751, 2011.
DUTRA, D. N. M.; SILVA, S. F. da Futebol e Rivalidade no Riso e
em Rede: O Facebook Como Campo Para Antagonismo de Torcidas.
Intercom – Sociedade Brasileira de Estudos Interdisciplinares da
Comunicação XXXV Congresso Brasileiro de Ciências da Comunicação.
Fortaleza: [s.n.]. 2012.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining
to Knowledge Discovery in Databases. AI Magazine, Providence, Rhode
Island, EUA, v. Volume 17, p. 37-54, 1996.
FERREIRA, A. B. H. Minidicionário da Língua Portuguesa. 3ª
Edição. ed. Rio de Janeiro: Nova Fronteira, 1993.
GIULIANOTTI, R. Fanáticos, Seguidores, Fãs E Flaneurs: Uma
Taxonomia de Identidades de Torcedores no Futebol. Journal of Sport &
Social Issues, Leicestershire, v. 26, n. 1, p. 25-46, Janeiro 2012.
GOMIDE, J.; VELOSO, A., MEIRA, W. JR.; BENEVENUTO, F. ;
ALMEIDA, V. ; FERRAZ, F.; TEIXEIRA, M. Dengue surveillance based
on a computational model of spatiotemporal locality of Twitter.
Proceedings of the Third International Conference on Web Science (ACM
WebSci’11). Koblenz, Alemanha: [s.n.]. 2011.
HAN, J.; KAMBER, M. Data Mining: Concepts and Techniques. 2ª
Edição. ed. San Francisco, California, EUA: Morgan Kaufmann, 2006.
86
MARQUEZ, A. C.; LIMA, F. L. M. #SpanishRevolution e o poder
do jornalismo participativo na criação de narrativas sociais no
Twitter. 1º Encontro Nacional de Jovens Pesquisadores em Jornalismo.
Rio de Janeiro, ECO- Universidade Federal do Rio de Janeiro: [s.n.].
novembro 2011.
MICK, R. Process Industry P2B Integration Strategies. ARC
Advisory Group. Dedham. 2003.
MORAES, C. H. C. de Uma Paixão Em Três Capítulos: Análise
Sócio-Histórica Do Futebol Brasileiro. Universidade Estadual de
Alagoas. Palmeira dos Índios. 2010.
PENNACCHIOTTI, M.; POPESCU, A. A machine learning approach
to twitter user classification. In Proceedings of the International
Conference on Weblogs and Social Media. [S.l.]: [s.n.]. 2011.
PRATI, R. C.; BATISTA, G. E. A. P. A.; MONARD, M. C. Uma
Experiência no Balanceamento Artificial de Conjuntos de Dados
para Aprendizado com Classes Desbalanceadas utilizando Análise
ROC. IV Workshop de Inteligência Artificial (ATAI'2003). São Paulo:
[s.n.]. 2003.
PRETI, D. A gíria e outros temas. São Paulo: EDUSP, 1984.
REBUSTINI, F.; ZANETTI, M. C.; MOIOLI, A.; MACHADO, A. A.
Análise da Repercussão do Uso do Twitter no Esporte de Alto
Desempenho. "Jogos, Redes Sociais, Mobilidade e Estruturas
Comunicacionais Urbanas", V Simpósio Nacional da ABCiber. Florianópolis:
[s.n.]. 2011.
RUSSELL, M. A. Mining the Social Web. 1ª Edição. ed. Sebastopol:
O'Reilly, 2011.
SAKAKI, T.; OKAZAKI, M.; MATSUO, Y. Earthquake Shakes
Twitter Users: Real-time Event Detection by Social Sensors. WWW '10
Proceedings of the 19th international conference on World wide web. New
York, NY, USA: [s.n.]. 2010. p. 851-860.
87
SANTOS, L. C. O. Aplicação do Processo de KDD a um
Ambiente Industrial (Dissertação de Mestrado). Universidade
Federal de Minas Gerais. Belo Horizonte. 2007.
SANTOS, W.; PAPPA, G.; MEIRA JR., W.; GUEDES, D.; VELOSO, A.;
ALMEIDA, V.; PEREIRA, A.; GUERRA, P.; SILVA, A.; MOURÃO, F.;
MAGALHÃES, T.; MACHADO, L. F.; CHERCHIGLIA, L. SIMÕES,R. BATISTA,
F. ARCANJO, G. BRUNORO, N. MARIANO, G. MAGNO, M. T. RIBEIRO,L.
TEIXEIRA.Observatório da web: Uma plataforma de monitoração,
síntese e visualização de eventos massivos em tempo real. Anais do
XXXVII Seminário Integrado de Hardware e Software, SEMISH’10. [S.l.]:
[s.n.]. 2010. p. pages 110–120.
THORNE, S.; BRUNER, G. C. An exploratory investigation of the
characteristics of consumer fanaticism. Qualitative Market Research:
An International Journal, v. 9, p. 51-72, 2006.
WACHELKE, J. F. R.; ANDRADE, A. L. de; TAVARES, L.; NEVES, J. R.
L. L. Mensuração Da Identificação Com Times De Futebol: Evidências De
Validade Fatorial E Consistência Interna De Duas Escalas. Arq. bras.
psicol. [online], Rio de Janeiro, v. 60, n. 1, p. 96-111, 2008. ISSN ISSN
1809-5267.
WALTON, D.; MACAGNO, F. CLASSIFICATION AND AMBIGUITY.
STUDIES IN LOGIC, GRAMMAR AND RHETORIC 16 (29). [S.l.]: [s.n.].
2009.
88
Anexo A: Apresentação das pesquisas de
características dos usuários
Nº Categoria Pesquisa
1 Pura de
Tempo
Comparação entre o número de postagens antes e
após o campeonato
2 Pura de
Tempo
Oscilação do número de postagens ao longo do
campeonato
3 Pura de
Tempo
Aumento/diminuição do número de postagens ao longo
do campeonato
4 Pura de
Tempo
Comparação entre o número de postagens dentro e
fora do período temporal em que ocorre o campeonato
5 Pura de Tempo
Comparação entre o número de postagens durante rodadas e entre-rodadas
6 Pura de Tempo
Comparação entre o número de postagens um dia antes e um dia depois de jogos do Flamengo
7 Pura de Tempo
Comparação entre o número de postagens somadas as postagens um dia antes e um dia depois dos jogos do
Flamengo e durante a ocorrência da partida
8 Pura de Tempo
O percentual entre o número de postagens que ocorrem durante um jogo do Flamengo e o total de
postagens
9 Pura de
Atributo
Oscilação do número de postagens de acordo com os
dias da semana
10 Pura de Atributo
Oscilação do número de postagens de acordo com o horário do dia em que ocorrem as postagens
11 Pura de
Atributo
Relação entre o número de seguidores e seguidos (da
página do usuário)
12 Pura de Atributo
Numero total de contatos do usuários (somando seguidores e seguidos)
13 Pura de Atributo
Média ponderada entre o número de ocorrências de URLs, hashtags e retweets nas mensagens
14 Pura de
Atributo
Média ponderada entre o número de ocorrências de
menções, retweets e respostas nas mensagens
89
15 Pura de Atributo
Percentual de menções ao Flamengo com relação dentre o montante de equipes citadas nas mensagens
16
Pura de Atributo
Comparação entre o total de termos íntimos e não intimos, presentes nas mensagens (alcunhas são tidas
como indício de intimidade em detrimento do nome do time ou adjetivo ao torcedor)
17
Pura de
Atributo
Número de postagens em que o Flamengo é
mencionado (corresponde ao total de mensagens coletadas)
18 Pura de Atributo
Percentual entre o número total de mensagens coletadas e o número total de postagens pelo usuário
durante o período de coleta
19
Pura de
Atributo
Percentual de menções aos outros times cariocas
(Fluminense, Vasco e Botafogo) com relação ao montante de menções a equipes
20
Geral Oscilação do número de postagens em momentos
próximos aos jogos do Flamengo de acordo com a natureza do rival (rival regional, rival nacional ou
outros times)
21
Geral Comparação entre o o número de postagens em momentos próximos aos jogos do Flamengo com rivais
regionais e com outros times
22 Geral Aumento/diminuição do número de postagens de
acordo com o número de pontos obtidos pelo Flamengo
nos últimos três jogos
23
Geral Aumento/diminuição do número de postagens de acordo com o número de pontos obtidos pelo Flamengo
nos últimos oito jogos
24 Geral Relação entre o número de postagens após jogos em
que o Flamengo é goleado e os demais jogos.
25 Geral Aumento/diminuição do número de postagens de
acordo com a posição do Flamengo na tabela de
classificação
26 Geral Oscilação do número de postagens de acordo com a
posição do Flamengo na tabela de classificação
27
Geral Relação entre o número de postagens, durante
rodadas, de acordo com o percentual de ocupação do estádio em que a partida, com mando do Flamengo,
ocorre
90
28 Geral Relação entre o número de postagens após jogos em
que o Flamengo vence e aqueles em que o time é
derrotado.
29 Geral Comparação entre o número de postagens em
momentos próximos a partidas realizadas no final de
semana e no meio da semana
30
Geral Comparação entre o número de postagens em
momentos próximos a partidas de acordo com certos horário de exibição (Quarta à noite e domingo à tarde
versus os demais horários)
31
Geral Comparação entre a média ponderada do número de ocorrência de palavras de baixo calão, grafadas em
caixa alta, com repetição de vogais e pontos de exclamação, nas mensagens em momentos próximos
da partida e o restante do campeonato
32
Geral Comparação entre a média ponderada do número de ocorrência de palavras de baixo calão e grafadas em
caixa alta nas mensagens em momentos próximos da partida e o restante do campeonato
33
Geral Média ponderada entre o número de ocorrência de
palavras de baixo calão e grafadas em caixa alta no total de mensagens
34 Geral Comparação entre o número de postagens em
momentos próximos a partidas contra times em
posição inferior na tabela de classificação
35 Geral Comparação entre o número de postagens em
momentos próximos a partidas contra times próximos
na tabela de classificação
36 Geral Comparação entre o número de postagens em
momentos próximos a partidas contra times em
posição superior na tabela de classificação
91
Anexo B: Questionário sobre características de
um torcedor fanático
Termo de consentimento de participação voluntária:
A minha participação nesta pesquisa é totalmente voluntária. Se eu
optar em não participar, não haverá nenhuma consequência negativa.
Lembre-se que você poderá interromper a pesquisa em qualquer
momento.
Prosseguindo como preenchimento das respostas, eu atesto que li e
compreendi as informações acima e concordo em participar desta
pesquisa.
Explicações:
Cada questão trará consigo o conceito de análise envolvido, e
também, uma explicação na forma de frase que o ilustra. Atribua a cada
quesito um valor de importância para que caracterizar um torcedor
fanático.
Importante:
Essa pesquisa não visa questionar seu caráter de torcedor, mas sim,
saber o que você entende como sendo um torcedor fanático.
Cada uma das pesquisas listadas será respondida de acordo com
uma nota graduada entre 1 e 4, como mostradas na Figura 9 - Graduação
atribuída a cada resposta das questões..
Figura 9 - Graduação atribuída a cada resposta das questões.
As pesquisas realizadas estão listadas abaixo:
92
1. Apoio incondicional: na vitória ou na derrota, sempre está ao lado
de seu time.
2. Dedicação como expectador: não deixa de assistir nenhum jogo
de seu time, este momento pra ele é sagrado.
3. Acompanhamento do time: está sempre por dentro do que
acontece com seu time.
4. Interação com torcedores do mesmo time: gosta de interagir
com pessoas que também torcem por seu time.
5. O Time como parte de sua identidade: se ele pudesse, colocaria
o nome de seu time como seu sobrenome.
6. Colecionar tudo que se refere ao time: mantém um local onde
gosta de coletar informações e tudo que simboliza seu time.
7. Atenção exclusiva na hora da partida: no momento do jogo
esquece que o mundo existe, desliga seu celular e fica de olho
grudado na tela.
8. Comparecimento: não abre mão de ir ao estádio incentivar seu
time.
9. Rivalidade: gosta muito de zombar os principais adversários de seu
time.
10. Mudança de comportamento em momentos importantes:
quando seu time vence a alegria é tanta que quer gritar para o
mundo que ama seu time, quando perde se revolta.
11. Obsessão: pensa em seu time o dia inteiro, é seu assunto
principal.