Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo:...

Post on 06-Jul-2020

1 views 0 download

Transcript of Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo:...

UniversidadeFederaldePernambucoCentrodeInformática

GraduaçãoemCiênciadaComputação

AplicaçãodeDeepLearningemAnálisedeSentimentoemTextosdeMicroblogging

GuilhermePalmaPeixoto

PropostadeTrabalhodeGraduação

Orientador:TsangIng-Ren

RecifeSetembro2016

Resumo UmaformaquesetornoupopulardecompartilharconteúdodentrodocontextodaWeb2.0

sãoossitesdemicrobloggingnosquaisseususuáriospostamseuspensamentosemformatos

detextoscurtosesucintos.OsitemaispopulardemicrobloggingéoTwitter,quelimitaseus

usuários a postarem textos comnomáximo140 caracteres. Esses textos temum caráter

extremamenteopinativo, oqueocasionouum interesseda indústria emanalisaroqueo

públicotemcomentadosobresuasmarcaseprodutosdentrodessarede.Essetrabalhotem

comopropósitoodesenvolvimentodeumaferramentaquerealizaanálisedesentimentoa

partirdetweets1,utilizandotécnicasdeDeepLearningparatal.Primeiro,serádesenvolvido

ummódulodeextraçãoeprocessamentodedadosnãoestruturadosdoTwitter,comouso

deAPIspúblicase técnicasdeprocessamentode linguagemnatural.Posteriormente, será

realizado o desenvolvimento de um algoritmo de classificação binário de fragmentos de

textos com o uso de redes neurais convolucionais para classificação e transformação de

palavrasemvetoresreais.Porfim,serárealizadoumaanáliseestatísticadaperformancedo

algoritmo desenvolvido e será realizado um caso de estudo comparativo com outros

algoritmos utilizados dento do contexto da classificação de texto curtos, informais e

opinativos.

Palavras-chave:Análisedesentimento,classificaçãodetexto,deeplearning,processamento

delinguagemnatural,Twitter,microblogging,redessociais,mineraçãodeopinião.

1 Tweet é o termo comumente utilizado para denotar um texto curto de até 140 caracterescompartilhadosdentrodoTwitter.

Abstract WiththespreadoftheWeb2.0usage, ithasbecomeapopularpracticetosharecontent

withinmicrobloggingwebsites,inwhichitsuserssharetheirthoughtsinshortandsuccinct

texts.OneofthemostpopularmicrobloggingwebsiteisTwitter,whichlimitsitsuserstopost

theirpostsintextsthatcanhaveatmost140characters.Thoseshorttextsarehighlyinformal

and it usually expressopinions,which led to an interest from the industry tomine those

opinionsinordertobetterunderstandhowtheirbrandsandproductsareperceivedthrough

themarket. Thisworkhasas itspurpose thedevelopmentof a framework thatperforms

sentimentanalysisintweets2thatleveragestheuseofDeepLearningtechniquesforsuch.

Firstly,itwillbedevelopedanon-structureddataextractionmodulefromTwitter(byusing

itspublicAPI)andapre-processingphasewithnaturallanguageprocessingtechniques.Then,

it will be presented a Deep Learning approach for binary text classification and word

embeddingwiththeuseofconvolutionalneuralnetworks.Lastly,itwillbeshownastatistical

analysisofthealgorithmperformancealongwithacomparativestudyofhowothermore

traditionalalgorithmsperformwithinthisshortandinformaltextclassificationcontext.

Keywords:sentimentanalysis,textclassification,deeplearning,naturallanguageprocessing,

Twitter,microblogging,socialnetworks,opinionmining.

2TweetisthetermusuallyattributedtopoststhataresharedwithintheTwittersocialnetworkanditrepresentsashorttextofatmost140characters.

Sumário

Introdução........................................................................................................................1

Objetivos...........................................................................................................................3

EstruturadoTrabalho........................................................................................................4

Cronograma......................................................................................................................5

PossíveisAvaliadores........................................................................................................6

Assinaturas.......................................................................................................................7

Referências.......................................................................................................................8

1

Introdução DesdeosurgimentodaWeb2.0,ocrescimentodeconteúdogeradopelosusuáriosdaWorld

WideWebvemcrescendoexponencialmente.Umdosprincipaismecanismosdessanovaera

dainformaçãoéainteroperabilidade,deformaqueoconteúdonãoégeradoapenasatráves

dedesktops,masdeváriosdevicesexternos(principalmenteousodesmartphones)quese

encontramconectadosàrede.Assim,aspessoasestãoconectadasduranteamaiorpartedo

seudia,gerandoconstantementeconteúdo.Umadasaplicaçõesmaispopularesdentroda

Web 2.0 é o uso de redes sociais, nas quais os usuários podem compartilhar diversas

informações,comofotos,vídeos,textos.Juntocomosurgimentodasnovasredessociaise

plataformasnasquaisosusuáriospoderiampublicarassuasopiniões,textosepensamentos,

surgiuumanova“modalidade”debloggingchamadademicroblogging,naqualosusuários

publicamassuasopiniõesemcurtostextos.

Dentrodocontextodemicroblogging,dois sitesdestacaram-se:oTumblr3eoTwitter4.O

Twitter,particularmente,alcançouumenormesucesso:éestimadoquesejampostados,em

média,500milhõesdetweets5pordiaapartirdeseususuários.Comomuitosdessestweets

contémcurtasopiniões sobreprodutos,marcas eoutros sujeitosde análisede interesse,

surgiuumgrandeinteressedaindústriaafimdemineraressaenormequantidadededados

queégeradadiariamente.

Umadasprincipaisaplicaçõesdentrodemineraçãodeopiniãoéanálisedesentimento,que

consisteemdeterminarseoalvodaopiniãodeumtextotemumcaráterpositivoounegativo.

Assim,muitas ferramentas e técnicas foramdesenvolvidas comopropósito de analisar o

sentimentodentrodesses textoscurtos,usualmentecomaaplicaçãodeumalgoritmode

classificaçãobinárioque rotulao sentimentodeum texto comopositivoounegativo.No

entanto,comonãoépossíveldarcomoentradadiretamenteumasequênciadecaracteres

como entrada a um algoritmo de classificação, uma etapa de processamento comum é

vetorizaressestextosafimdeproduzirumvetorrealdetamanhofixo.Essesvetores,porém,

conformeotamanhodabasededadoscresce,costumamserdealtíssimadimensionalidade

(daordemdemilhõesdenúmeroscadavetor),deformaqueabordagensclássicas,mesmo

3https://www.tumblr.com/4https://twitter.com/5Fonte:http://www.internetlivestats.com/twitter-statistics/

2

queefetivas,terminamtornando-senãoescaláveis.Novasabordagensentãocomeçarama

surgirparasupriressanecessidadedeescalabilidadeevelocidadeenquantoaacuráciadas

abordagenstradicionaisdeclassificaçãofossemantida.

Com o grande avanço na tecnologia na produção de hardwares cada vez mais eficazes

(especialmentememóriaeGPU),asredesneuraiscommuitascamadas,quecaracterizamas

redes encontradas dentro do campo de estudo do deep learning, tiveram um interesse

retomadopelaacademia.Apesardoconceitooriginalteraproximadamente20anosdeidade,

apenascomoavançodopodercomputacionalquefoipossívelrealizarimplementaçõesmais

eficazesparaaeradebigdataatual.

Deep learning foi rapidamente introduzido no campo de visão computacional e

reconhecimentode imagens,mas tambémencontrou seucaminhoemprocessamentode

linguagemnatural,ondeasuaprincipalcontribuiçãofoiencontrarumaformadereduzira

dimensionalidadeeesparsidadedasrepresentaçõesvetoriaisdesequênciasdecaracteres.

Noentanto,apenasadaptararepresentaçãodassequênciasdecaracteresemvetoresreais

nãoésuficiente,osalgoritmosdeclassificaçãotambémprecisamseradaptadosparasuportar

novasrepresentações.Assim,torna-seimportanteoestudodeanalisarnovosalgoritmoscom

técnicas que utilizam o estado-da-arte de performance tanto em termos de precisão da

classificação,quantoem tomaromáximodeproveitopossíveldas tecnologias físicasque

possuímoshoje.

3

Objetivos Oobjetivoprincipaldessetrabalhoéaimplementaçãodeumclassificadorbinárioqueutiliza

umaabordagemdeDeepLearningvoltadoparaatarefadeanálisedesentimentoemcima

detextosdecarátercurtoeinformaldentrodocontextodemicroblogging,quecontémuma

gramáticadiferenciadadaquelasencontradasemsitesquecontémopiniõesescritasdeforma

mais tradicional (i.e.,mais longaecomagramáticamais formal).Alémdisso,é incluídoa

implementaçãodeummóduloqueirárealizaracoletadabasededadosparatreinamentoe

teste(comousodaAPIpúblicadoTwitter)eumaetapadepré-processamentoutilizando

técnicas de processamento de linguagem natural. Por fim, também é objetivado a

desenvolturadeumestudocomparativoentreaperformancedoalgoritmodesenvolvidoe

outrosclassificadoresbinários.

4

EstruturadoTrabalho Otrabalhoserádividoedesenvolvidodeacordocomaseguinteestruturapretendida:

• Introdução:aquiserãointroduzidosotemaeamotivaçãoparaotrabalho;

• Conceitostécnicos:nessecapítuloserãointroduzidosalgunsconceitosbásicosacerca

das principais tecnologias e algoritmos utilizados nesse trabalho, não

necessariamenterestritasoulimitadasa:

o Técnicasdeprocessamentodelinguagemnaturalutilizadas,

o Classificadoresdeaprendizagemdemáquina,

o Deeplearning,incluindo:conceitosevisõesgerais,redesconvolucionais,word

embedding(mapeamentodepalavrasparavetoresreaisdebaixadimensão);

• Desenvolvimento:essecapítuloserádivididoemtrêspartesprincipais:

o DesenvolvimentodomódulodeextraçãodedadosdoTwitter;

o Desenvolvimentodomódulodepré-processamentodetexto;

o Desenvolvimento do algoritmo de classificação com o uso de redes

convolucionais

• Avaliação:serádedicadaaanalisaraperformancedoalgoritmopropostodeacordo

comdiversasmétricas,incluindooestudocomparativocomaperformancedeoutros

algoritmosaplicadosaoconjuntodedados.

5

Cronograma Atividades Agosto Setembro Outubro Novembro Dezembro

Formulaçãodaproposta

Revisãobibliográfica

DesenvolvimentodomódulodemineraçãodoTwitter

Desenvolvimentodomódulodepré-processamentodetexto

Desenvolvimentodoclassificadorbináriodeanálisedesentimento

Análisedeperformancedoalgoritmo

Estudocomparativo

Preparaçãodadefesa

Defesa

6

PossíveisAvaliadores Os seguintes professores(as) a seguir são considerados como possíveis avaliadores do

trabalhodesenvolvidoaserentregue:

• PauloSalgadoGomesdeMattosNeto(CIn/UFPE)

• LucianodeAndradeBarbosa(CIn/UFPE)

• GeorgeDarmitondaCunhaCavalcanti(CIn/UFPE)

7

Assinaturas

____________________________

Tsang-IngRen(Orientador)

____________________________

GuilhermePalmaPeixoto(Aluno)

8

ReferênciasGIMPEL, Kevin et al. Part-of-speech tagging for twitter: Annotation, features, andexperiments. Proceedings Of The 49th Annual Meeting Of The Association For ComputationalLinguistics:HumanLanguageTechnologies.p.42-47,2011.GO, Alec; HUANG, Lei; BHAYANI, Richa. Twitter sentiment classification using distantsupervision: CS224N Project Report, Stanford 1. 2009. Disponível em:<http://s3.amazonaws.com/academia.edu.documents/34632156/Twitter_Sentiment_Classification_using_Distant_Supervision.pdf?AWSAccessKeyId=AKIAJ56TQJRTWSMTNPEA&Expires=1473783321&Signature=E1MnObCowXZCeMdxgQmtZjWtyZU=&response-content-disposition=inline;filename=Twitter_Sentiment_Classification_using_D.pdf>.Acessoem:07set.2016.GOLDBERG, Yoav; LEVY,Omer.Word2vec Explained:DerivingMikolov et al.’sNegative-SamplingWord-EmbeddingMethod. 2014. Disponível em: <https://arxiv.org/pdf/1402.3722v1.pdf>. Acessoem:07set.2016.GOODFELLOW,Ian;BENGIO,Yoshua;COURVILLE,Aaron.DeepLearning.Cambridge:MitPress,2016.Disponívelem:<http://www.deeplearningbook.org/>.Acessoem:09set.2016.HU, Minqing; LIU, Bing. Mining and summarizing customer reviews. Acm Sigkdd InternationalConferenceOnKnowledgeDiscoveryAndDataMining.p.168-177.22ago.2004.KIM, Yoon. Convolutional neural networks for sentence classification: arXiv preprintarXiv:1408.5882. 2014. Disponível em: <http://arxiv.org/pdf/1408.5882.pdf>. Acesso em: 07 set.2016. MIKOLOV, Tomas et al. Distributed representations of words and phrases and theircompositionality.AdvancesInNeuralInformationProcessingSystems.2013.TANG,Duyuetal.Coooolll:AdeeplearningsystemforTwittersentimentclassification.InternationalWorkshopOnSemanticEvaluation.p.208-212,2014.