Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo:...

12
Universidade Federal de Pernambuco Centro de Informática Graduação em Ciência da Computação Aplicação de Deep Learning em Análise de Sentimento em Textos de Microblogging Guilherme Palma Peixoto Proposta de Trabalho de Graduação Orientador: Tsang Ing-Ren Recife Setembro 2016

Transcript of Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo:...

Page 1: Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

UniversidadeFederaldePernambucoCentrodeInformática

GraduaçãoemCiênciadaComputação

AplicaçãodeDeepLearningemAnálisedeSentimentoemTextosdeMicroblogging

GuilhermePalmaPeixoto

PropostadeTrabalhodeGraduação

Orientador:TsangIng-Ren

RecifeSetembro2016

Page 2: Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

Resumo UmaformaquesetornoupopulardecompartilharconteúdodentrodocontextodaWeb2.0

sãoossitesdemicrobloggingnosquaisseususuáriospostamseuspensamentosemformatos

detextoscurtosesucintos.OsitemaispopulardemicrobloggingéoTwitter,quelimitaseus

usuários a postarem textos comnomáximo140 caracteres. Esses textos temum caráter

extremamenteopinativo, oqueocasionouum interesseda indústria emanalisaroqueo

públicotemcomentadosobresuasmarcaseprodutosdentrodessarede.Essetrabalhotem

comopropósitoodesenvolvimentodeumaferramentaquerealizaanálisedesentimentoa

partirdetweets1,utilizandotécnicasdeDeepLearningparatal.Primeiro,serádesenvolvido

ummódulodeextraçãoeprocessamentodedadosnãoestruturadosdoTwitter,comouso

deAPIspúblicase técnicasdeprocessamentode linguagemnatural.Posteriormente, será

realizado o desenvolvimento de um algoritmo de classificação binário de fragmentos de

textos com o uso de redes neurais convolucionais para classificação e transformação de

palavrasemvetoresreais.Porfim,serárealizadoumaanáliseestatísticadaperformancedo

algoritmo desenvolvido e será realizado um caso de estudo comparativo com outros

algoritmos utilizados dento do contexto da classificação de texto curtos, informais e

opinativos.

Palavras-chave:Análisedesentimento,classificaçãodetexto,deeplearning,processamento

delinguagemnatural,Twitter,microblogging,redessociais,mineraçãodeopinião.

1 Tweet é o termo comumente utilizado para denotar um texto curto de até 140 caracterescompartilhadosdentrodoTwitter.

Page 3: Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

Abstract WiththespreadoftheWeb2.0usage, ithasbecomeapopularpracticetosharecontent

withinmicrobloggingwebsites,inwhichitsuserssharetheirthoughtsinshortandsuccinct

texts.OneofthemostpopularmicrobloggingwebsiteisTwitter,whichlimitsitsuserstopost

theirpostsintextsthatcanhaveatmost140characters.Thoseshorttextsarehighlyinformal

and it usually expressopinions,which led to an interest from the industry tomine those

opinionsinordertobetterunderstandhowtheirbrandsandproductsareperceivedthrough

themarket. Thisworkhasas itspurpose thedevelopmentof a framework thatperforms

sentimentanalysisintweets2thatleveragestheuseofDeepLearningtechniquesforsuch.

Firstly,itwillbedevelopedanon-structureddataextractionmodulefromTwitter(byusing

itspublicAPI)andapre-processingphasewithnaturallanguageprocessingtechniques.Then,

it will be presented a Deep Learning approach for binary text classification and word

embeddingwiththeuseofconvolutionalneuralnetworks.Lastly,itwillbeshownastatistical

analysisofthealgorithmperformancealongwithacomparativestudyofhowothermore

traditionalalgorithmsperformwithinthisshortandinformaltextclassificationcontext.

Keywords:sentimentanalysis,textclassification,deeplearning,naturallanguageprocessing,

Twitter,microblogging,socialnetworks,opinionmining.

2TweetisthetermusuallyattributedtopoststhataresharedwithintheTwittersocialnetworkanditrepresentsashorttextofatmost140characters.

Page 4: Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

Sumário

Introdução........................................................................................................................1

Objetivos...........................................................................................................................3

EstruturadoTrabalho........................................................................................................4

Cronograma......................................................................................................................5

PossíveisAvaliadores........................................................................................................6

Assinaturas.......................................................................................................................7

Referências.......................................................................................................................8

Page 5: Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

1

Introdução DesdeosurgimentodaWeb2.0,ocrescimentodeconteúdogeradopelosusuáriosdaWorld

WideWebvemcrescendoexponencialmente.Umdosprincipaismecanismosdessanovaera

dainformaçãoéainteroperabilidade,deformaqueoconteúdonãoégeradoapenasatráves

dedesktops,masdeváriosdevicesexternos(principalmenteousodesmartphones)quese

encontramconectadosàrede.Assim,aspessoasestãoconectadasduranteamaiorpartedo

seudia,gerandoconstantementeconteúdo.Umadasaplicaçõesmaispopularesdentroda

Web 2.0 é o uso de redes sociais, nas quais os usuários podem compartilhar diversas

informações,comofotos,vídeos,textos.Juntocomosurgimentodasnovasredessociaise

plataformasnasquaisosusuáriospoderiampublicarassuasopiniões,textosepensamentos,

surgiuumanova“modalidade”debloggingchamadademicroblogging,naqualosusuários

publicamassuasopiniõesemcurtostextos.

Dentrodocontextodemicroblogging,dois sitesdestacaram-se:oTumblr3eoTwitter4.O

Twitter,particularmente,alcançouumenormesucesso:éestimadoquesejampostados,em

média,500milhõesdetweets5pordiaapartirdeseususuários.Comomuitosdessestweets

contémcurtasopiniões sobreprodutos,marcas eoutros sujeitosde análisede interesse,

surgiuumgrandeinteressedaindústriaafimdemineraressaenormequantidadededados

queégeradadiariamente.

Umadasprincipaisaplicaçõesdentrodemineraçãodeopiniãoéanálisedesentimento,que

consisteemdeterminarseoalvodaopiniãodeumtextotemumcaráterpositivoounegativo.

Assim,muitas ferramentas e técnicas foramdesenvolvidas comopropósito de analisar o

sentimentodentrodesses textoscurtos,usualmentecomaaplicaçãodeumalgoritmode

classificaçãobinárioque rotulao sentimentodeum texto comopositivoounegativo.No

entanto,comonãoépossíveldarcomoentradadiretamenteumasequênciadecaracteres

como entrada a um algoritmo de classificação, uma etapa de processamento comum é

vetorizaressestextosafimdeproduzirumvetorrealdetamanhofixo.Essesvetores,porém,

conformeotamanhodabasededadoscresce,costumamserdealtíssimadimensionalidade

(daordemdemilhõesdenúmeroscadavetor),deformaqueabordagensclássicas,mesmo

3https://www.tumblr.com/4https://twitter.com/5Fonte:http://www.internetlivestats.com/twitter-statistics/

Page 6: Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

2

queefetivas,terminamtornando-senãoescaláveis.Novasabordagensentãocomeçarama

surgirparasupriressanecessidadedeescalabilidadeevelocidadeenquantoaacuráciadas

abordagenstradicionaisdeclassificaçãofossemantida.

Com o grande avanço na tecnologia na produção de hardwares cada vez mais eficazes

(especialmentememóriaeGPU),asredesneuraiscommuitascamadas,quecaracterizamas

redes encontradas dentro do campo de estudo do deep learning, tiveram um interesse

retomadopelaacademia.Apesardoconceitooriginalteraproximadamente20anosdeidade,

apenascomoavançodopodercomputacionalquefoipossívelrealizarimplementaçõesmais

eficazesparaaeradebigdataatual.

Deep learning foi rapidamente introduzido no campo de visão computacional e

reconhecimentode imagens,mas tambémencontrou seucaminhoemprocessamentode

linguagemnatural,ondeasuaprincipalcontribuiçãofoiencontrarumaformadereduzira

dimensionalidadeeesparsidadedasrepresentaçõesvetoriaisdesequênciasdecaracteres.

Noentanto,apenasadaptararepresentaçãodassequênciasdecaracteresemvetoresreais

nãoésuficiente,osalgoritmosdeclassificaçãotambémprecisamseradaptadosparasuportar

novasrepresentações.Assim,torna-seimportanteoestudodeanalisarnovosalgoritmoscom

técnicas que utilizam o estado-da-arte de performance tanto em termos de precisão da

classificação,quantoem tomaromáximodeproveitopossíveldas tecnologias físicasque

possuímoshoje.

Page 7: Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

3

Objetivos Oobjetivoprincipaldessetrabalhoéaimplementaçãodeumclassificadorbinárioqueutiliza

umaabordagemdeDeepLearningvoltadoparaatarefadeanálisedesentimentoemcima

detextosdecarátercurtoeinformaldentrodocontextodemicroblogging,quecontémuma

gramáticadiferenciadadaquelasencontradasemsitesquecontémopiniõesescritasdeforma

mais tradicional (i.e.,mais longaecomagramáticamais formal).Alémdisso,é incluídoa

implementaçãodeummóduloqueirárealizaracoletadabasededadosparatreinamentoe

teste(comousodaAPIpúblicadoTwitter)eumaetapadepré-processamentoutilizando

técnicas de processamento de linguagem natural. Por fim, também é objetivado a

desenvolturadeumestudocomparativoentreaperformancedoalgoritmodesenvolvidoe

outrosclassificadoresbinários.

Page 8: Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

4

EstruturadoTrabalho Otrabalhoserádividoedesenvolvidodeacordocomaseguinteestruturapretendida:

• Introdução:aquiserãointroduzidosotemaeamotivaçãoparaotrabalho;

• Conceitostécnicos:nessecapítuloserãointroduzidosalgunsconceitosbásicosacerca

das principais tecnologias e algoritmos utilizados nesse trabalho, não

necessariamenterestritasoulimitadasa:

o Técnicasdeprocessamentodelinguagemnaturalutilizadas,

o Classificadoresdeaprendizagemdemáquina,

o Deeplearning,incluindo:conceitosevisõesgerais,redesconvolucionais,word

embedding(mapeamentodepalavrasparavetoresreaisdebaixadimensão);

• Desenvolvimento:essecapítuloserádivididoemtrêspartesprincipais:

o DesenvolvimentodomódulodeextraçãodedadosdoTwitter;

o Desenvolvimentodomódulodepré-processamentodetexto;

o Desenvolvimento do algoritmo de classificação com o uso de redes

convolucionais

• Avaliação:serádedicadaaanalisaraperformancedoalgoritmopropostodeacordo

comdiversasmétricas,incluindooestudocomparativocomaperformancedeoutros

algoritmosaplicadosaoconjuntodedados.

Page 9: Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

5

Cronograma Atividades Agosto Setembro Outubro Novembro Dezembro

Formulaçãodaproposta

Revisãobibliográfica

DesenvolvimentodomódulodemineraçãodoTwitter

Desenvolvimentodomódulodepré-processamentodetexto

Desenvolvimentodoclassificadorbináriodeanálisedesentimento

Análisedeperformancedoalgoritmo

Estudocomparativo

Preparaçãodadefesa

Defesa

Page 10: Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

6

PossíveisAvaliadores Os seguintes professores(as) a seguir são considerados como possíveis avaliadores do

trabalhodesenvolvidoaserentregue:

• PauloSalgadoGomesdeMattosNeto(CIn/UFPE)

• LucianodeAndradeBarbosa(CIn/UFPE)

• GeorgeDarmitondaCunhaCavalcanti(CIn/UFPE)

Page 11: Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

7

Assinaturas

____________________________

Tsang-IngRen(Orientador)

____________________________

GuilhermePalmaPeixoto(Aluno)

Page 12: Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

8

ReferênciasGIMPEL, Kevin et al. Part-of-speech tagging for twitter: Annotation, features, andexperiments. Proceedings Of The 49th Annual Meeting Of The Association For ComputationalLinguistics:HumanLanguageTechnologies.p.42-47,2011.GO, Alec; HUANG, Lei; BHAYANI, Richa. Twitter sentiment classification using distantsupervision: CS224N Project Report, Stanford 1. 2009. Disponível em:<http://s3.amazonaws.com/academia.edu.documents/34632156/Twitter_Sentiment_Classification_using_Distant_Supervision.pdf?AWSAccessKeyId=AKIAJ56TQJRTWSMTNPEA&Expires=1473783321&Signature=E1MnObCowXZCeMdxgQmtZjWtyZU=&response-content-disposition=inline;filename=Twitter_Sentiment_Classification_using_D.pdf>.Acessoem:07set.2016.GOLDBERG, Yoav; LEVY,Omer.Word2vec Explained:DerivingMikolov et al.’sNegative-SamplingWord-EmbeddingMethod. 2014. Disponível em: <https://arxiv.org/pdf/1402.3722v1.pdf>. Acessoem:07set.2016.GOODFELLOW,Ian;BENGIO,Yoshua;COURVILLE,Aaron.DeepLearning.Cambridge:MitPress,2016.Disponívelem:<http://www.deeplearningbook.org/>.Acessoem:09set.2016.HU, Minqing; LIU, Bing. Mining and summarizing customer reviews. Acm Sigkdd InternationalConferenceOnKnowledgeDiscoveryAndDataMining.p.168-177.22ago.2004.KIM, Yoon. Convolutional neural networks for sentence classification: arXiv preprintarXiv:1408.5882. 2014. Disponível em: <http://arxiv.org/pdf/1408.5882.pdf>. Acesso em: 07 set.2016. MIKOLOV, Tomas et al. Distributed representations of words and phrases and theircompositionality.AdvancesInNeuralInformationProcessingSystems.2013.TANG,Duyuetal.Coooolll:AdeeplearningsystemforTwittersentimentclassification.InternationalWorkshopOnSemanticEvaluation.p.208-212,2014.