Post on 26-Jan-2019
18 a 20 de Outubro, 2018 - UFSCar, São Carlos-SP
#meetingdata
Organização e Apoio:
Livro de Programa, Resumos e Anotações
#meetingdata
Ciencia de Dados e um campo multidisciplinar que englobametodos e processos para obtencao de conhecimento ou com-preensao de premissas a partir de dados (informacoes).
As solucoes apresentadas em Ciencias de Dados empre-gam metodos de diferentes areas da Matematica, Estatıstica,Ciencia da Informacao, Computacao Cientıfica e especialmen-te nas subareas de aprendizado de maquina, modelagem es-tatıstica, classificacao, mineracao de dados, inteligencia arti-ficial, metodos preditivos e modelos probabilısticos.
Conceitos estatısticos e analise de dados sao empregadospara entender e analisar fenomenos atuais. Grandes quanti-dades de dados estao disponıveis e sua analise depende naoapenas dos metodos estatısticos usuais, mas tambem do usode tecnicas computacionais para resolver o problema de Big
Data. Dessa forma, entende-se que Ciencias de Dados unenaturalmente as ciencias Estatıstica e Computacao, desen-volvendo solucoes para os desafios enfrentados nas areas deAstronomia, Biologia, Epidemiologia, Linguıstica, Medicina,entre outras.
O #meetingdata e um encontro para discutir/apresentar odesenvolvimento de Ciencias de Dados sob o domınio de mul-tidisciplinaridades fundamentais para a pesquisa. Os topicoscobrirao desde a analise estatıstica ate metodos de aprendi-zado de maquina, promovendo uma busca por solucoes atu-
ais para os desafios e necessidades da sociedade.
O site do evento e:http://www.datascience.ufscar.br/meetingdata
Sao Carlos, 18 de Outubro de 2018
Comissao Organizadora
1
ORGANIZACAO
Comite de Organizacao
• Adriano Polpo (DEs-UFSCar)• Agatha Sacramento Rodrigues (IME-USP/FMUSP)• Danilo Lourenco Lopes (DEs-UFSCar)• Diego Furtado da Silva (DC-UFSCar)• Guilherme Barreto Fernandes (Serasa Experian)• Heloisa de Arruda Camargo (DC-UFSCar)• Murilo Cantoni (DEs-UFSCar)• Rafael Bassi Stern (DEs-UFSCar)• Ricardo Ciferri (DC-UFSCar)• Teresa Cristina Martins Dias (DEs-UFSCar)
Comite Cientıfico
• Adriano Polpo (DEs-UFSCar)• Estevam Rafael Hruschka Junior (DC-UFSCar)• Hermes Senger (DC-UFSCar)• Marcio Alves Diniz (DEs-UFSCar)• Rafael Izbicki (DEs-UFSCar)• Ricardo Cerri (DC-UFSCar)
Contato:
• datascience@ufscar.br
2
Quinta-feira (18/10) Sexta-feira (19/10) Sabado (20/10)
09:00-09:25 Sessao Oral O3 Sessao Oral O7Joao Carlos P. Ferreira Ana Carolina Simionato
09:25-10:15 Conferencia C2 Conferencia C6Estevao Vieira Alexandre Chiavegatto
10:15-10:35 Co�ee Break Co�ee Break
10:35-11:00 Sessao Oral O4 Sessao Oral O8Marcio A. Diniz Osvaldo A. Junior
11:00-11:50 Conferencia C3 Conferencia de EncerramentoIgor Braga Rafael Izbicki
11:50-12:00Horario de Almoco
Encerramento12:00-13:5013:50-14:00 Abertura
14:00-14:50 Conferencia de Abertura Conferencia C4Andre de Carvalho Rafael Monteiro
14:50-15:15 Sessao Oral O1 Sessao Oral O5Guaraci Requena Adriano B. Morales
15:15-15:40 Sessao Oral O2 Sessao Oral O6Eduardo K. Nakao Carlos Roberto S. Junior
15:40-16:30 Sessao Poster Sessao Postercom cafe com cafe
16:30-17:20 Conferencia C1 Conferencia C5Otavio Vasques Florencia Leonardi
3
Tabela 2: Contribuicoes
Apresentador(a) Tıtulo Pag. Data Sessao
Andre de Carvalho AutoML: Automated Machine Lear-ning
12 18/Out14:00-14:50
A
Otavio Vasques Reconstruindo modelos de credito esegmentacao com dados de celulares
13 18/Out16:30-17:20
C1
Estevao Vieira Como nosso cerebro representa otempo
14 19/Out9:25-10:15
C2
Igor Braga Aprendizado de maquina sob a in-fluencia de covariate-shift
15 19/Out11:00-11:50
C3
Rafael Monteiro Data Science & Data Engineering apli-cados ao mercado de capitais Brasi-leiro
16 19/Out14:00-14:50
C4
Continua na pr´oxina p ´agina
4
Tabela 2 – Contribuic˜oes
Apresentador(a) Tıtulo Pag. Data Sessao
Florencia Leonardi Estimadores regularizados para pro-blemas de alta dimensao
17 19/Out16:30-17:20
C5
Alexandre Chiave-gatto
Aplicacoes de machine learning emsaude
18 20/Out9:25-10:15
C6
Rafael Izbicki FlexCode: modelando incertezas emproblemas de predicao
19 20/Out11:00-11:50
E
Guaraci Requena Multinomial regression via binomialregressions
20 18/Out14:50-15:15
O1
Eduardo Kazuo Na-kao
Manifold learning for non-linear di-mensionality reduction in hyperspec-tral image unsupervised classification
21 18/Out15:15-15:40
O2
Joao Carlos Poloni-ato Ferreira
Aplicacao do FBST em modelos baye-sianos de alta dimensao
23 19/Out09:00-09:25
O3
Continua na pr´oxina p ´agina
5
Tabela 2 – Contribuic˜oes
Apresentador(a) Tıtulo Pag. Data Sessao
Marcio Alves Diniz Um experimento sobre previsoes pro-babilısticas
24 19/Out10:35-11:00
O4
Adriano BarasalMorales
Firm location: an approach using spa-tial point process
25 19/Out14:50-15:15
O5
Carlos Roberto Sil-veira Junior
Mineracao de regras de associacaoespaco-temporais tematicas aplicadaa imagens de explosoes solares
26 19/Out15:15-15:40
O6
Ana CarolinaSimionato
Sustentabilidade e curadoria digitalpara colecoes de patrimonio cultural
28 20/Out09:00-09:25
O7
Osvaldo AnacletoJunior
Generalising dynamic Bayesiannetworks to accommodate causaland symmetric signals in high-dimensional time series
30 20/Out10:35-11:00
O8
Continua na pr´oxina p ´agina
6
Tabela 2 – Contribuic˜oes
Apresentador(a) Tıtulo Pag. Data Sessao
Agatha SacramentoRodrigues
Curva de crescimento fetal personali-zada
31 18-19/Out15:40-16:30
P1
Alejandra EstefanıaPatino Hoyos
Adaptative significance levels in nor-mal mean hypothesis testing
33 18-19/Out15:40-16:30
P2
Alisson Hayasi daCosta
Performance analysis of deep neuralnetworks in piRNAs classification
34 18-19/Out15:40-16:30
P3
Amanda Azevedodos Santos
Recursos sonoros e linked open data:MusicBrainz
35 18-18/Out15:40-16:30
P4
Aulida BereniceMoretti dos Santos
Dados abertos: criacao de novosnegocios
37 18-19/Out15:40-16:30
P5
Brendon GouveiaCambuı
Feature extraction for multi-target le-arning
39 18-19/Out15:40-16:30
P6
Bruna Zamith San-tos
Predicting protein functions via inte-raction prediction
40 18-19/Out15:40-16:30
P7
Continua na pr´oxina p ´agina
7
Tabela 2 – Contribuic˜oes
Apresentador(a) Tıtulo Pag. Data Sessao
Camila LorencettiBrolo
Comparacao de testes de hipotesespara duas medias em variaveis do tipoproporcao
42 18-19/Out15:40-16:30
P8
Camila SgarioniOzelame
Redes Bayesianas: uma comparacaoentre metodos de estimacao de estru-tura
43 18-19/Out15:40-16:30
P9
Dhiogo Jose Correade Sa
Momentos de vida: mineracao de tex-tos e Big Data para oferecimento deservicos personalizados
45 18-19/Out15:40-16:30
P10
Diogo Barboza Mo-reira
Obtencao de curvas de confiabilidadeem testes de vida acelerados
47 18-19/Out15:40-16:30
P11
Elaine Cecılia Gatto Proposta de um modelo de apren-dizado competitivo para classificacaohierarquica multirrotulo
48 18-19/Out15:40-16:30
P12
Continua na pr´oxina p ´agina
8
Tabela 2 – Contribuic˜oes
Apresentador(a) Tıtulo Pag. Data Sessao
Estela Maris Pe-reira Bereta
Estimadores, pontual e intervalar,para dados com censuras intervalar
50 18-19/Out15:40-16:30
P13
Julio M. Stern Haphazard intentional sampling tech-niques in network design of monito-ring stations
51 18-19/Out15:40-16:30
P14
Leandro AugustoFerreira
Random Bernstein polynomials – anonparametric bayesian estimation ofdensities via ABC
53 18-19/Out15:40-16:30
P15
Leonardo UtidaAlcantara
Semi-supervised predictive clusteringtree for protein subcellular localization
54 18-19/Out15:40-16:30
P16
Lucas Eduardo deMoraes
Implementacao de inferencia Bayesi-ana nao parametrica para processospontuais espaciais
56 18-19/Out15:40-16:30
P17
Continua na pr´oxina p ´agina
9
Tabela 2 – Contribuic˜oes
Apresentador(a) Tıtulo Pag. Data Sessao
Marcelo de SouzaLauretto
Alocacao intencional fortuita: um es-tudo de caso em avaliacao de software
57 18-19/Out15:40-16:30
P18
Marcio Luis Lan-fredi Viola
Using Markov chain in data science 58 18-19/Out15:40-16:30
P19
Maykon RochaSantana
Uma abordagem distribuida para sis-temas fuzzy evolutivos multiobjetivosem problemas de Big Data
59 18-19/Out15:40-16:30
P20
Pedro Luiz PaolinoChaim
Analise estatıstica do desempenho doPT nas eleicoes proporcionais entre2000 e 2016, e previsoes para 2018
61 18-19/Out15:40-16:30
P21
Rafael Sto�aletteJoao
Mineracao de regras de associacaotemporais envolvendo dados quantita-tivos contınuos
62 18-19/Out15:40-16:30
P22
Continua na pr´oxina p ´agina
10
Tabela 2 – Contribuic˜oes
Apresentador(a) Tıtulo Pag. Data Sessao
Suzane Carol deLima
Aplicacao de aprendizado ativo na ta-refa de classificacao de textos em fluxode dados
64 18-19/Out15:40-16:30
P23
Taıs Roberta Ri-beiro
O modelo de copula de Frank para da-dos de sobrevivencia bivariados: mo-delagem, estimacao Bayesiana e pon-tos influentes
65 18-19/Out15:40-16:30
P24
Thiago Zafalon Mi-randa
Proposta de geracao de regras declassificacao multirrotulo simultane-amente eficazes e interpretaveis viaotimizacao multiobjetivo com algorit-mos geneticos
66 18-19/Out15:40-16:30
P25
Victor Azevedo Cos-crato
Agnostic tests can control the type Iand type II errors simultaneously
67 18-19/Out15:40-16:30
P26
11
AutoML: Automated Machine LearningAndre Carlos Ponce de Leon Ferreira de Carvalho
ICMC–USP
Resumo
As the number of successful applications of Machine Learningalgorithms grows, there is also an increase in the need to makethese algorithms easily accessible by users without Machine Le-arning expertise. There have been several e�orts in this direc-tion, involving not only the recommendation of the most suitablealgorithm, but also their most appropriate hyper-parameter va-lues. These several e�orts started a new research area, namedAutomated Machine Learning, AutoML, which has attracted theattention of researchers and practitioners not only from the aca-demia, but also from several companies working with data sci-ence. This talk will present the main approaches and recent ad-vances in this area, covering also works carried out in the Analy-tics Laboratory, at USP Sao Carlos.
#meetingdata – Conferencia de Abertura
12
Reconstruindo modelos de credito esegmentacao com dados de celulares
Otavio VasquesSerasa Experian - IF-USP
Resumo
Como dados provenientes de aparelhos celulares auxiliam a de-senvolver modelos de credito e segmentacao de marketing? Dis-cutimos os desafios e solucoes para coletar e produzir modelos apartir de variaveis provenientes de aparelhos de celular, aplicati-vos, localizacao, etc.
#meetingdata – Conferencia 1
13
Como nosso cerebro representa o tempoEstevao Vieira
Serasa Experian – UFABC
Resumo
Um problema discutido em neurociencia e como os nossos cere-bros representam o mundo externo (ou conceitos internos). Apre-sentamos algumas tecnicas de aprendizado de maquina para me-dir a representacao de tempo no cerebro, a partir da atividadede neuronios durante a realizacao de uma tarefa dependente dotempo, encontrando que regioes do cerebro mudam sua repre-sentacao atraves de repeticoes da tarefa.
#meetingdata – Conferencia 2
14
Aprendizado de maquina sob a influencia decovariate-shift
Igor BragaBig Data
Resumo
Covariate-shift acontece quando as bases de treinamento e deteste nao compartilham a mesma distribuicao das variaveis deentrada. Esse fenomeno esta presente em diversos problemasde mundo real e, potencialmente, quando a distribuicao de testeesta sob o controle de terceiros. Nesta palestra, mostramos comocovariate-shift prejudica o desempenho dos modelos aprendidos,e abordamos tecnicas para detectar e tratar esse problema.
#meetingdata – Conferencia 3
15
Data Science & Data Engineering aplicadosao mercado de capitais Brasileiro
Rafael MonteiroSerasa Experian – Mackenzie
Resumo
Apresentamos como tratar as dezenas de gigabytes de dados ge-rados por dia, provenientes da bolsa de valores (em tempo real),utilizando o algoritmo de Long Term Short Memory Networks(LSTM) para identificacao de padroes e analises.
#meetingdata – Conferencia 4
16
Estimadores regularizados para problemasde alta dimensao
Florencia LeonardiIME–USP
Resumo
Nesta palestra serao apresentados alguns problemas tıpicos deestimacao em altas dimensoes, como o caso de modelos de re-gressao linear com mais variaveis que observacoes ou de mode-los graficos onde o numero de vertices e maior que o tamanhoda amostra. Introduziremos estimadores do tipo LASSO comregularizacao baseada na norma l1, e explicaremos quais saoas vantagens deste tipo de proposta. Alem da exposicao teorica,apresentaremos alguns exemplos de aplicacao.
#meetingdata – Conferencia 5
17
Aplicacoes de machine learning em saudeAlexandre Dias Porto Chiavegatto Filho
FSP–USP
Resumo
O rapido aumento na quantidade de dados tem aberto novasoportunidades para a saude brasileira. Entre as varias novida-des proporcionadas pelo big data, destaca-se o uso de modelospreditivos de machine learning para melhorar a qualidade e aavaliacao dos servicos de saude. A palestra tem como objetivoapresentar aplicacoes praticas desses modelos na area da saude,alem de seus benefıcios e limitacoes.
#meetingdata – Conferencia 6
18
FlexCode: modelando incertezas emproblemas de predicao
Rafael IzbickiUFSCar
Resumo
Grande parte das ferramentas de aprendizado de maquina temcomo objetivo criar boas predicoes. Contudo, raramente e possı-vel faze-las com 100% de acuracia. Assim, em muitas aplicacoes,apenas fornecer predicoes nao explora toda a informacao pre-sente nos dados. Nesta apresentacao, mostraremos uma fer-ramenta que e capaz de modelar incertezas em problemas depredicao. Tambem mostraremos seu desempenho na predicao dageolocalizacao de tweets, assim como para diversos problemas decosmologia.
#meetingdata – Conferencia de Encerramento
19
Multinomial regression via binomialregressions
Guaraci Requena – IME-USP,Carlos Alberto de Braganca Pereira – UFMT/IME-USP e
Adriano Polpo – UFSCar
Resumo
The most used multinomial regression model is the baseline-category logit. However, this is not the only way to build it,neither in relation to the baseline category nor in relation to thelogit link function. As we may factorize the multinomial distribu-tion for D categories in terms of D-1 binomial ones - through re-cursive and exhaustive binary partitioning of the set of categories- we may define the multinomial regression in terms of binomialones, bringing all the flexibility concerning the link functions.Likewise, to define D-1 binary classifiers - from those binomialregressions - leads us to build a multi-class classifier. Unfortuna-tely, the class of factorizations could be very extensive accordingto the number of categories (approximately 35 ⇥ 106 for 10 cate-gories, for example), so we could have a very large class of dis-tinct multinomial models and/or multi-class classifiers. Facingthis problem, we suggest two step-by-step approaches throughminimizations of involved binary classification risks, based onthe one-versus-one and one-versus-rest approaches. In order tostudy their performances, we apply them in a psychiatric pro-blem, precisely in Obsessive-Compulsive Disorder, in which theaim is to classify the patient, who has features observed froma global severity scale (Y-BOCS), in a dimensional severity scale(DY-BOCS), seeking a more precise phenotype.
#meetingdata – Sessao Oral 1
20
Manifold learning for non-lineardimensionality reduction in hyperspectral
image unsupervised classificationEduardo Kazuo Nakao e
Alexandre Luis Magalhaes LevadaUFSCar
Resumo
Hyperspectral images characteristics of high dimensionality andstrong inter-pixel correlation indicate that its possible that thevectors of those images matrixes are embedded in an non-linearmanifold instead of an euclidean one. To help elucidating thissupposition, one can try to reduce those images dimensionalityusing linear and manifold learning methods prior to a clusteringalgorithm and then compute an evaluation metric on the di�e-rent results. If the validation index scores higher on non-linearreduction clustering results, this is an indication that hyperspec-tral images in fact contains non-linear relations. One approachof experimenting on this scenario for example is executing Princi-pal Component Analysis, Isometric Feature Mapping and LocallyLinear Embedding (each one in separate fashion) and then de-ploy K-Means and Gaussian Mixture Model clustering methodsat each separate result for several di�erent images. Then theperformance can be measured by Kappa Coe�cient if originalclasses labels are provided (external evaluation). It’s worth noti-cing that the selection of target reduced dimensionality must bedone in basis of some know criteria, for example the division ofthe first largest eigenvalues of the reduction methods transfor-mation matrices by the sum of all of those eigenvalues. Anotherpoint to notice is that the External clustering evaluation criteriaonly works well when the clustering generated class labels aresemantically the same as the original classes labels. This can beachieved by solving the minimal pairing cost on a bipartite graph
#meetingdata – Sessao Oral 2
21
(this optimal allocation problem can be solved by the Munkres al-gorithm for example). There is a known dataset of AVIRIS sensorhyperspectral images that can be used for experimentation.
#meetingdata – Sessao Oral 2
22
Aplicacao do FBST em modelos Bayesianosde alta dimensao
Joao Carlos Poloniato Ferreira,Rafael Bassi Stern e
Rafael IzbickiUFSCar
Resumo
Neste trabalho estudamos o problema de controlar o nıvel sig-nificancia do Full Bayesian Significant Test (FBST) em mode-los para densidade de probabilidade. Para isto, mostramos ummetodo que define uma posteriori da densidade de probabili-dade com infinitos parametros. Para conduzirmos o FBST nessasituacao introduzimos a definicao do e-valor modificado que euma maneira de calcular a medida de evidencia do FBST con-trolando o nıvel de significancia do teste ja que o calculo usualnao apresenta bons resultados quando sao testados muitos pa-rametros. Apresentamos entao os resultados de um estudo desimulacao com diferentes distribuicoes de densidade analisandoo comportamento da funcao poder do FBST comparada com afuncao poder do teste de Kolmogorov-Smirnov (KS).
#meetingdata – Sessao Oral 3
23
Um experimento sobre previsoesprobabilısticas
Marcio Alves Diniz, Rafael IzbickiDanilo Lourenco Lopes e Luis Ernesto Salasar
UFSCar
Resumo
Durante a ultima Copa do Mundo lancamos a plataforma “FifaExperts”, onde as pessoas podiam informar as probabilidadesque atribuıam a cada possıvel resultado dos jogos da Copa. De-pois de cada jogo, as previsoes recebiam uma pontuacao e os par-ticipantes eram classificados. Dois modelos matematicos tambemforam incluıdos como participantes. Nesta apresentacao discu-timos brevemente a experiencia e apresentamos resultados pre-liminares da analise dos dados coletados.
#meetingdata – Sessao Oral 4
24
Firm location: an approach using spatialpoint process
Adriano Barasal Morales e Marcio Poletti LauriniFEARP-USP
Resumo
We propose an application of spatial statistics to model the lo-cation patterns of new services firms in the city of Sao Paulo.In this paper, we assume that the spatial location of these firmswas generated through a two-dimensional point process and thuswe applied two distinct models: one based on non-stochastic in-tensity based on the Poisson process, and a stochastic intensitymodel based on the Log Gaussian Cox process (LGCP). The re-sults show the usefulness of these models the construction ofspatial location models, combining di�erent data sources andintroducing new perspectives on the empirical study of locationeconomics. Keywords: Firm location, spatial statistics, Poissonpoint process, LGCP, INLA.
#meetingdata – Sessao Oral 5
25
Mineracao de regras de associacaoespaco-temporais tematicas aplicada a
imagens de explosoes solaresCarlos Roberto Silveira Junior, Marcela Xavier Ribeiro e
Marilde Terezinha Prado SantosUFSCar
Resumo
Introducao. A analise de clima espacial e uma tarefa complexaque envolve dados espaco-temporais provenientes de imagens desatelite somado a dados de boletins diarios. Tais dados sao ca-racterizados como series temporais de imagens georeferenciadase series temporais de dados semanticos (dados alfanumericosque descrevem as imagens), respectivamente. A mineracao de re-gras de associacao pode auxiliar na analise desses dados, comoum mecanismo para a revelacao de padroes novos e uteis parao especialista de domınio. No entanto, os metodos existentesde mineracao de regras de associacao espaco-temporais aindasao limitados e, em consequencia disso, nao atendem adequada-mente as expectativas para extracao de padroes que relacionaminformacoes espaco-temporais em imagens e dados semanticos.Objetivo. Assim sendo, este trabalho tem por objetivo apoiara analise do clima espacial a partir do desenvolvimento de ummetodo de mineracao de regras de associacao espaco-temporaisque permita relacionar dados solares semanticos e visuais. Ofoco sao series de imagens solares oriundas de satelites. Pro-posta. O metodo desenvolvido e composto por: um novo pro-cesso de ETL - direcionado ao domınio solar; um novo algoritmode mineracao de regras de associacao espaco-temporais, e; umnovo classificador que utiliza as regras espaco-temporais paradeterminar o comportamento futuro de novos dados solares. Oalgoritmo de mineracao proposto avanca o atual estado da arte daarea de mineracao de regras de associacao por dividir a aplicacaodas restricoes espaco-temporais em duas etapas diferentes do
#meetingdata – Sessao Oral 6
26
processamento: a aplicacao das restricoes espaciais e feita du-rante a extracao de itemsets frequentes e a aplicacao das res-tricoes temporais durante a geracao das regras de associacaoespaco-temporais tematicas. Desta forma, e possıvel a obtencaode regras que representam a evolucao de um determinado con-junto de eventos e como eles se relacionam entre si. Por fim,essas regras sao utilizadas pelo classificador associativo que foiproposto neste trabalho para predizer o comportamento solarcom base em suas caracterısticas visuais atuais. Resultados. Ometodo proposto gerou regras que foram usadas para a classifi-cacao, apresentando uma precisao de ate 87,3% na classificacaode imagens solares, sendo que esse valor de precisao varia com oextrator de caracterısticas utilizado para representar as imagens.A maior precisao (87,3%) foi obtida utilizado SURF como extratorde caracterısticas e a menor precisao (82,7%) foi utilizado o His-tograma como extrator de caracterısticas. Os resultados obtidosforam analisados pelo especialista de domınio que avaliou comoeficaz e valido o metodo proposto.
#meetingdata – Sessao Oral 6
27
Sustentabilidade e curadoria digital paracolecoes de patrimonio culturalAna Carolina Simionato, Maria Ligia Triques,Debora Marroco Ninin e Marcos Teruo Ouchi
PPGCI-UFSCar
Resumo
No atual cenario tecnologico e diante ao crescente volume de da-dos, a area de Ciencia da Informacao busca metodos mais efe-tivos para a organizacao, representacao do conteudo digital decolecoes de patrimonio cultural. Assim, objetiva-se a discutirsobre os processos de criacao e gerenciamento de dados e meta-dados, a partir do estudo da Curadoria Digital e do emprego dosmodelos de dados, destacando-se a importancia da otimizacao esustentabilidade do reuso dos dados em centros de informacao.Nessa perspectiva, as questoes emergentes do atual cenario temconduzido esses estudos para o vies da manutencao do contextodigital, denominado como Curadoria Digital. A partir dos pres-supostos da Curadoria Digital, evidencia a preocupacao em as-segurar a sobrevivencia e o acesso contınuo do material digital,conduzindo a novas praticas teorico-aplicadas para o gerencia-mento dos dados. No entanto, a Curadoria Digital envolve diver-sas acoes de gerenciamento de dados, que consistem em iden-tificar, digitalizar, higienizar, descrever, armazenar e preservar,compartilhar e avaliar os dados. A descricao e tomada comoprincıpio e integrado de todas as acoes, sem descartar as par-ticularidades de cada tipo de acervo. Para tanto, os processosde representacao anteriores a esse cenario, buscavam atender anecessidades especıficas as tipologias de acervos, e hoje, as mes-mas detentoras das colecoes de patrimonio cultural devem agir erepensar o gerenciamento de metadados por meio das atuais tec-nologias que fornecem modos comuns e interoperaveis de acesso,uso e reuso de recursos. Como tambem, devem reconfigurar osprocedimentos comuns que delineiam a um retrabalho no uso
#meetingdata – Sessao Oral 7
28
dos metadados em arquivos, bibliotecas e museus, a partir deuma sustentabilidade de dados, resultante do planejamento dossistemas de gerenciamento nos modelos de dados, definicao dosmetadados e de padroes de metadados. Considera-se que osmodelos conceituais acarretam em uma desconstrucao do regis-tro, em que os dados de uma estruturacao monolıtica passama ser retratados por relacoes, desse modo, os instrumentos derepresentacao e os catalogos sao parte de um novo paradigma deligacao de acervos no ambiente digital. A proporcao abstrativados modelos de dados configura-se em um espaco de informacoesque interage com a Web, formando uma rede de dados que inte-gra diversos recursos informacionais. Alem disso, seu potencialesta na possibilidade de disseminar a terceiros seus conteudos,promovendo amplo reuso e acesso aos dados, e principalmente,o gerenciamento desse conteudo e assim, caracterizando a Cu-radoria Digital.
#meetingdata – Sessao Oral 7
29
Generalising dynamic Bayesian networks toaccommodate causal and symmetric signals
in high-dimensional time seriesOsvaldo Anacleto Junior
ICMC-USP
Resumo
We present the dynamic chain graph model, which extends dyna-mic Bayesian networks by considering high-dimensional time se-ries exhibiting not only a causal drive mechanism between theircomponents but also symmetric relationships among them. Thismodel can accommodate non-linear and non-normal time seriesand simplifies computation by decomposing a high-dimensionalproblem into separate, simpler sub-problems of lower dimensi-ons. The advantages of the new model will be illustrated by fore-casting tra�c network flows and also by modelling gene expres-sion data from transcriptional networks. A hierarchical extensionof the model will be also introduced.
#meetingdata – Sessao Oral 8
30
Curva de crescimento fetal personalizadaAgatha Sacramento Rodrigues, Mariza Marie Fujita e
Rossana Pulcineli Vieira FranciscoDepartamento de Obstetrıcia da FM-USP
Resumo
O acompanhamento do crescimento fetal alerta o obstetra paraa necessidade de cuidados assistenciais adequados. Atualmenteno Brasil, as curvas de crescimento das medidas biometricas deHadlock (1991) sao usadas como referencia. No entanto, estassao curvas baseadas na populacao americana, que apresenta ca-racterısticas diferentes da populacao brasileira. Ainda, as curvasde Hadlock sao funcoes apenas da idade gestacional e pode serinteressante considerar curvas de crescimento fetal para medi-das biometricas que, alem da idade gestacional, levem em contacaracterısticas maternas e da gestacao, ou seja, curvas persona-lizadas.
Foram observados 1445 exames ultrassonograficos em 434gestacoes unicas no perıodo gestacional de 12 a 42 semanascujo parto ocorreu entre 2014 e 2017 no hospital universitarioda Universidade de Sao Paulo (HU/USP), com pelo menos duasavaliacoes da mesma gestacao ao longo do pre natal.
No presente trabalho, construımos curvas de crescimento fe-tal por meio de modelos lineares mistos ao levar em conta a de-pendencia de exames de uma mesma gestacao. Consideramos asseguintes covariaveis: peso materno, altura materna, sexo fetale numero de partos anteriores. No processo de modelagem, 70%dos dados sao separados como amostra treinamento e 30% paratestar o modelo. Modelos lineares sem e com penalizacoes deLasso e de Ridge foram considerados. A escolha dos parametrosde penalizacao foi realizada por meio de validacao cruzada pelometodo de 10-fold. O modelo escolhido e aquele com menor raizdo erro quadratico medio (REQM) na amostra teste. Um aplica-tivo shiny foi elaborado para visualizacao das curvas para que
#meetingdata – P1
31
obstetras do Brasil possam calcular a curva esperada de umagestacao dada suas caracterısticas.
#meetingdata – P1
32
Adaptative significance levels in normalmean hypothesis testing
Alejandra Estefanıa Patino Hoyos e Victor FossaluzaIME-USP
Resumo
The Full Bayesian Significance Test (FBST) for precise hypotheseswas presented by Pereira and Stern [Entropy 1(4) (1999) 99-110]as a Bayesian alternative instaed of the traditional significancetest using p-value. The FBST is based on the evidence in favorof the null hypothesis (H0). An important practical issue for theimplementation of the FBST is the determination of how largethe evidence must be in order to decide for its rejection. In theClassical significance tests, it is known that p-value decreases assample size increases, so by setting a single significance level, itusually leads H0 rejection. In the FBST procedure, the evidencein favor of H0 exhibits the same behavior as the p-value whenthe sample size increases. This suggests that the cut-o� pointto define the rejection of H0 in the FBST should be a samplesize function. In this work, we focus on the case of two-sidednormal mean hypothesis testing and present a method to finda cut-o� value for the evidence in the FBST, by minimizing thelinear combination of the type I error probability and the expectedtype II error probability for a given sample size.
#meetingdata – P2
33
Performance analysis of deep neuralnetworks in piRNAs classification
Alisson Hayasi da Costa,Renato Augusto Correa dos Santos
e Ricardo CerriUFSCar
Resumo
Modern machine learning techniques, such as Deep Learning,have been successful in many complex Bioinformatics tasks. Thecapacity of Deep Neural Networks to handle large volumes of datahas made them essential tools for multiple areas of knowledge.However, developing the best model for a given task is a hardwork. Deep Neural Networks have a very large number of hy-perparameters, making them as powerful as complex to be ad-justed. Therefore, in order to better understand the behavior ofDeep Neural Networks when applied to biological data, we pre-sent in this paper a performance analysis of a Deep FeedforwardNetwork in piRNAs classification. Di�erent configurations of ac-tivation functions, initialization of weights, number of layers andlearning rate are experienced. The e�ects of di�erent hyperpara-meters are discussed and certain organizations are proposed forsimilar domains of data.
#meetingdata – P3
34
Recursos sonoros e linked open data:MusicBrainz
Amanda Azevedo dos Santos e Ana Carolina SimionatoUFSCar
Resumo
Diante da ascensao do uso e desenvolvimento das tecnologias dainformacao e comunicacao (TIC), producao e compartilhamentode informacoes e conteudos digitais tornou-se parte da rotina, emreflexo a esse novo comportamento, e difıcil definir e contabilizaro crescimento do volume informacional. Crescimento que pro-picia dificuldades para localizacao e acesso de diversos recursosinformacionais como imagens e musicas. A musica como arquivono formato MP3 apresenta dados denominado Identify a MP3(ID3), “Para representacao de musicas em formato MP3 existeo padrao ID3, que e um conjunto de metadados incorporado aoproprio arquivo de audio.”. (FERREIRA, 2015, p.13). Os meta-dados tambem podem ser assimilados como descritores ou atri-butos, que podem enriquecer, identificar e auxiliar na interacaoentre dados e softwares. (POLLOK, 2011). Frente ao desenvol-vimento de estudos sobre internet, o pesquisador Tim Berners-Lee criou um ambiente que usava uma rede de comunicacao,popularmente conhecida como internet que viabiliza o comparti-lhamento de arquivos, textos, audios, imagens e vıdeos ambienteque foi nomeado como Wide Word Web ou WWW. (BERNERS-LEE,1989). Assim, por meio do estudo e desenvolvimento dessas tec-nologias, surge o Linked Data, no Linked Open Data e possıvellocalizar datasets relacionados ao contexto musical, e analisar omodo como esse recurso e oferecido aos usuarios, assim como,quais ferramentas, metadados utilizados para aperfeicoar a re-cuperacao deste conteudo. Um dataset sobre musica e o Music-Brainz MusicBrainz e um projeto que fornece dados como identi-ficadores unicos e especıficos no contexto musical, como artistasde musica, albuns e as musicas, com o uso de URIs relaciona-dos com musica, o MusicBrainz tambem desenvolve produtos.
#meetingdata – P4
35
Seu banco de dados denominado MusicBrainz Database e estru-turado pelo PostgreSQL e contem os metadados das musicas equanto aos metadados utilizados eles segundo Metabrainz (2017,nao paginado, traducao nossa): Artista: Nome, nome de clas-sificacao, apelido, tipo, datas de inıcio e termino, comentariode desambiguacao; Grupos de liberacao: Tıtulo, credito do ar-tista, tipo, comentario de desambiguacao; Lancamentos: Tıtu-lo, credito do artista, tipo, status, idioma, data, paıs, rotulo,numero de catalogo, codigo de barras, meio (s), ID (s) de disco,comentario de desambiguacao; Suporte: Formato, lista de fai-xas (tıtulo, credito do artista, duracao) Gravacao: Tıtulo, creditodo artista, duracao, relacionamentos, comentario de desambi-guacao; Trabalho: Tıtulo, relacoes, comentario de desambigua-cao; Etiquetas: Nome, nome de classificacao, apelido, paıs, tipo,codigo, datas de inıcio e termino, comentario de desambiguacao;Relacoes e URLs: Os relacionamentos sao uma maneira de vin-cular as entidades acima e permitir que o MusicBrainz capturea maioria dos dados contidos nas notas de linha de um CD. CDStubs: Tıtulo, artista, codigo de barras, ID do disco, comentariode desambiguacao.
#meetingdata – P4
36
Dados abertos: criacao de novos negociosAulida Berenice Moretti dos Santos e
Ana Rita Tiradentes Terra ArgoudFATEC
Resumo
Com o avanco nas tecnologias de informacao e comunicacao criou-se um novo cenario no uso e compartilhamento de dados, como advento da Internet foi possıvel considerar polıticas de acessoaberto as publicacoes cientıficas. Atualmente, visando a trans-parencia e colaboracao sob diversos aspectos, cada vez mais oconceito de dados abertos vem sendo abordado, sendo tendenciaque haja essa abertura em dados governamentais e dados ci-entıficos. Os dados abertos, conhecido tambem como o movi-mento Open Data, surgiu com o intuito de oferecer transparenciana divulgacao dos dados e sua possıvel reutilizacao. A Open Kno-wledge International e uma importante fundacao sem fins lucra-tivos que visa incentivar o uso dos dados abertos na sociedade, edefine que: “Dados abertos sao dados que podem ser livrementeusados, reutilizados e redistribuıdos por qualquer pessoa - sujei-tos, no maximo, a exigencia de atribuicao da fonte e compartilha-mento pelas mesmas regras.” (OPEN KNOWLEDGE INTERNATI-ONAL, s.d.). Os dados abertos tem influencia na construcao denovas informacoes por meio de sua reutilizacao, trazendo a opor-tunidade de investimento tanto de instituicoes ou organizacoesque pretendem transforma-los em um conhecimento que tragabenefıcios para a sociedade. A Open Knowledge Brasil desen-volve e possui parceria em alguns projetos nesse sentido, comoo “Indice de Dados Abertos”, “Gastos Abertos”, “Vai Mudar”, etc.Assim Santarem Segundo (2015) afirma que as instituicoes noambito publico ou privado vem investindo na organizacao de a-cesso a informacao, pois consideram um bom diferencial no quetange tomada de decisao em diversas instancias. Com a polıticade Dados Governamentais Abertos (DGA) criado em 2009 pelo
#meetingdata – P5
37
entao presidente dos Estados Unidos Barak Obama, essa polıticadisponibiliza dados governamentais de domınio publico para a li-vre utilizacao dos cidadaos. Grandes numeros de pesquisadorese empresa tem buscado mais informacoes sobre DGA, alem decompreender seus atributos e caracterısticas ligados ao DGA. Aabertura da base de dados do governo vai alem da transparenciae combate a corrupcao que ja se justifica, ela tambem e um meiode incentivo ao uso desses dados abertos para a criacao de fer-ramentas e aplicativos, alem de novas empresas ou as ja exis-tentes utilizam esses dados em seus servicos e produtos criandonovos modelos de negocios. Dentro do contexto de servicos vol-tados para a populacao que fazem uso do DGA, tem se o “Cade oonibus?” (NANO, 2012) trata-se de um aplicativo para smartpho-nes que utiliza as informacoes de linhas, rotas, horarios de saıdae chegada do site da SPTrans, que e uma empresa publica detransporte no municıpio de Sao Paulo.
#meetingdata – P5
38
Feature extraction for multi-target learningBrendon Gouveia Cambuı
UFSCar
Resumo
Multi-target learning is a generalization of the recently-populari-zed task of multi-label classification, where each data instanceis associated with multiple target-variables simultaneously. Themain challenges in this research field are related to the highdimensionality of data present in datasets with such characte-ristics, and also the high number of target-variables having de-pendencies among them. In such scenarios, it is crucial to ex-tract lower-dimensional representations from the original input-space, such that these can be provided as input to other multi-target predictors. In this research, are proposed the use of Auto-Encoders and Restricted Boltzmann Machines as feature extrac-tors in some of multi-target datasets publicly available. Resultswill be evaluated considering state-of-the-art multi-target predic-tion methods and evaluation measures in the literature.
#meetingdata – P6
39
Predicting protein functions via interactionprediction
Bruna Zamith Santos, Ricardo Cerri e Celine VensUFSCar
Resumo
Proteins are macro-molecules responsible for virtually every tasknecessary for the maintenance of cells, having a fundamentalrole in the behavior and regulation of organisms. Advances in thearea of Molecular Biology have allowed an almost complete listingof the proteins that make up the organisms. However, there area large number of proteins whose function is still unknown, ope-ning space for a new research focus in Molecular Biology. Usually,protein function prediction is performed using homology-basedBioinformatic tools, comparing a sequence with a database withmany sequences belonging to previously known functions. Thisis a limited strategy, since it ignores the sequences’ biochemicalproperties, and also the hierarchical relationships that may existbetween the di�erent classes. In the literature, the use of Ma-chine Learning for the protein function prediction has shown tobe promising, obtaining significant advances regarding the use ofhomology and other methods. Making use of Machine Learning,it is possible to model the protein function prediction problem asa Hierarchical Multi-label Classification (HMC) problem, due tothe fact that protein functions are hierarchically organized andthat they can occur simultaneously. Among several HMC algo-rithms known in the literature, some of them have treated HMCtasks considering interaction data. Interaction data are charac-terized by two sets of objects, each described by their own setof features, which makes it possible to predict the interactionsbetween two instances. They are often represented as a networkof relationships. Such algorithms assign a function to a pro-tein based on the functional labels of its interacting neighbours.However, none of these methods model the HMC problem as an
#meetingdata – P7
40
interaction data problem. This project proposes modeling theprotein function prediction task as a HMC problem through inte-raction data. Thereby, a new method for HMC of protein functi-ons, which makes use of interaction prediction, is developed andstudied.
#meetingdata – P7
41
Comparacao de testes de hipoteses paraduas medias em variaveis do tipo proporcao
Camila Lorencetti Brolo eGustavo Henrique de Araujo Pereira
UFSCar
Resumo
O estudo de taxas e proporcoes e muito comum em diversas areasdo conhecimento. Elas assumem valores no intervalo (0;1) e saodenominadas variaveis do tipo proporcao. Quando o interessee comparar a media de uma variavel em dois grupos diferen-tes, e comum a utilizacao de testes de hipoteses. Neste traba-lho, comparamos a performance de tres testes de hipoteses paracomparacao de duas medias em variaveis do tipo proporcao coma suposicao de que a distribuicao da variavel resposta e Beta.Um dos testes e o mais tradicional e os outros sao baseados embootstrap. Em cada um dos cenarios considerados, atraves desimulacao de Monte Carlo, obtemos para cada metodo estimati-vas do tamanho e do poder do teste para a comparacao de duasmedias e por fim, aplicamos a dados reais. Dentre os resulta-dos obtidos, salientamos a boa performance do metodo boots-trap 1 para o erro do tipo I, quando temos valores iguais nasduas populacoes do parametro de precisao. Entretanto, para va-lores diferentes do parametro de precisao, o metodo bootstrap 2e o que melhor se comporta. Para o poder do teste, salientamostambem a boa performance do teste de hipotese bootstrap 1 nagrande maioria dos cenarios.
#meetingdata – P8
42
Redes Bayesianas: uma comparacao entremetodos de estimacao de estrutura
Camila Sgarioni Ozelame – UFSCar,Anderson Ara – UFBA,
Francisco Louzada Neto – ICMC-USP,Marcos Jardel Henriques – USP/UFSCar e
Oilson Alberto Gonzatto Junior – USP/UFSCar
Resumo
A tecnica de Redes Bayesianas baseia-se na representacao dadistribuicao conjunta de um grupo de variaveis aleatorias atravesde um grafo acıclico direcionado (DAG - Directed Acyclic Graph),sendo tais variaveis representadas por nos da rede e a depen-dencia condicional sendo representada por arcos. Deste modo,a tarefa de modelagem das conexoes entre as variaveis pode re-duzir a dimensionalidade do banco de dados e permitir melhorinterpretacao das variaveis envolvidas.
Neste trabalho, comparamos a estimacao da estrutura das re-des utilizando os algoritmos classicos K2 e PC. O primeiro consi-dera, inicialmente, a independencia entre os nos e a cada passoadiciona a relacao mais provavel entre as variaveis, otimizandoum escore especıfico de qualidade de ajuste, o qual avalia a redecomo uma funcao dos dados. O segundo, considera testes es-tatısticos baseado em metrica de informacao mutua condicionale de criterio de d-separacao para orientar os arcos. Neste con-texto, a metodologia implementada considera variaveis aleatoriascategoricas e uma variavel resposta, sendo entao redes de clas-sificacao.
Os metodos sao comparados por meio de dados artificiais coma estrutura conhecida, bem como de dados reais relativos a fa-lhas na plantacao de cana de acucar, neste ultimo a problematicada empresa gira em torno da dificuldade de diminuir as falhasnos talhoes de cana plantados em suas terras. Para quantificara qualidade do das estruturas propostas sao utilizadas as medi-das de AIC e BIC, alem disso de quatro medidas de performance
#meetingdata – P9
43
de desempenho: sensibilidade, especificidade, acuracia e o coe-ficiente de correlacao de Matthews.”
#meetingdata – P9
44
Momentos de vida: mineracao de textos eBig Data para oferecimento de servicos
personalizadosDhiogo Jose Correa de Sa, Thiago de Paulo Faleiros, Priscilla de
Abreu LopesRicardo B. Scheicher e Eduardo F. Velludo PradoItera - Inovacao e Desenvolvimento Tecnologico
Resumo
Em 2016 a Itera foi selecionada para participar do programa Ino-vaBra do Bradesco. O desafio proposto era o oferecimento deservicos personalizados, maximizando a conversao de vendas eengajamento com os clientes. Foi disponibilizado um conjunto dedados com 1Mi de transacoes bancarias de clientes, com dadoscomo identificacao do cliente, data e valor da transacao e textode segunda linha (texto curto que descreve a transacao). Com oauxılio de especialistas, foram definidas 32 categorias de gastos,sendo 26 gerais (”veıculo”, ”mercado”) e 6 para produtos finan-ceiros (”seguro”, ”cartao”), utilizadas para rotulacao manual de32 mil transacoes (1.000 por categoria). A geracao da solucaofoi realizada em 5 iteracoes do processo: pre-processamento dotexto de segunda linha, geracao de modelo de classificacao utili-zando a tecnica semissupervisionada Transductive Classificationbased on Bipartite Heterogeneus Network (TCBHN), classificacaoautomatica de 450Mi de transacoes utilizando tecnologia de pro-cessamento distribuıdo e validacao de amostra classificada pelosespecialistas, sendo que erros encontrados eram utilizados pararetreinamento do modelo. Apos validacao final do modelo, foi re-alizada a segmentacao de transacoes, definindo 10 quantis paracada categoria de transacao, baseados no valor gasto. Foi rea-lizada a recategorizacao de transacoes, incluindo a informacaode quantis, e.g. ”mercadoQ5”, ”seguroQ7”. Para cada cliente,foram montadas sacolas de compras mensais, documentos com-postos pelas categorias das transacoes efetuadas no mes de re-
#meetingdata – P10
45
ferencia concatenadas. Os documentos gerados foram agrupa-dos e topicos foram extraıdos dos grupos utilizando a tecnicaLatent Dirichlet Allocation (LDA), executada utilizando processa-mento distribuıdo. A analise dos topicos e de clientes especıficosproporcionou a identificacao de Momentos de Vida (reforma decasa, viagem) que foi utilizada pelo banco para oferecimento deservicos personalizados a seus clientes.
#meetingdata – P10
46
Obtencao de curvas de confiabilidade emtestes de vida acelerados
Diogo Barboza Moreira e Teresa Cristina Martins DiasUFSCar
Resumo
Na area de confiabilidade em Estatıstica, um dos interesses estaem estimar os parametros envolvidos no modelo que descreve ocomportamento de falha e a funcao de confiabilidade dos produ-tos. Consideramos um experimento que envolve a aplicacao detestes de vida acelerados, com a finalidade de modelar o com-portamento de falha, utilizando unidades amostrais. Tais uni-dades sao submetidas a condicoes de funcionamento nao usu-ais, atraves do aumento dos nıveis de variaveis que influenciamno tempo ate a ocorrencia do evento. Sao exemplos de variaveisde estresse: temperatura, voltagem e corrosao. Assumimos osmodelos exponencial ou Weibull para os tempos e a relacao davariavel de estresse com o tempo de vida dada pelos modelos delei de potencia ou Arrhenius, sob o esquema de censura a direita,do tipo II. Neste trabalho apresentamos estimativas para a funcaode confiabilidade, sob diversos nıveis de estresse, nos cenarioscitados. Os estimadores foram obtidos via metodo da maximaverossimilhanca e implementados em um programa, criado nosoftware R, que retorna as estimativas e as curvas de confiabili-dade para tempos simulados e conjuntos de dados reais.
#meetingdata – P11
47
Proposta de um modelo de aprendizadocompetitivo para classificacao hierarquica
multirrotuloElaine Cecılia Gatto – Faculdade Anhanguera de
Bauru/UFSCar eRicardo Cerri – UFSCar
Resumo
A Classificacao Hierarquica Multirrotulo (CHM) e um problemadesafiador da area de Aprendizado de Maquina (AM), sendo con-siderada uma tarefa complexa dentro da Classificacao de Dados,possuindo aplicacoes em areas como Bioinformatica, classifica-cao de textos e imagens. Um problema de CHM pode ser formali-zado como possuindo um espaco de exemplos X; um conjunto declasses C; uma ordem parcial que representa o relacionamentosuperclasse h; sendo que 8c1, c2 2 C : c1 hc2 () c1 uma su-perclasse de c2; uma hierarquia de Classes (C, h), um conjuntode tuplas (x
i
, C
i
) sendo x
i
2 X, Ci
✓ C |c 2 C
i
�! c
0 hc : c0 2 C
i
;um criterio de qualidade q que recompensa modelos com alto de-sempenho preditivo e baixa complexidade, e por fim, uma funcaof : X �! 2C; sendo 2C o conjunto de potencia de C, |c 2 f (x) �!8c0 hc : c0 2 f (x) e f otimiza q. As classes em um problema deCHM podem ser organizadas como uma Arvore ou como um GrafoAcıclico Direcionado. Dada essa taxonomia, os algoritmos deAM devem rotular objetos como pertencentes a multiplos cami-nhos simultaneamente. Abordagens Competitivas, que aplicamaprendizado nao supervisionado, tem sido recentemente aplica-das para resolucao de problemas envolvendo CHM, porem, aindaha poucos trabalhos que relatam solucoes aplicando AbordagensCompetitivas Hıbridas, mesclando aprendizado supervisionadoe nao-supervisionado. Portanto, este projeto de pesquisa temcomo objetivo investigar como o aprendizado competitivo, usandoredes neurais artificiais, pode colaborar para tarefas de CHM.Abordagens nao supervisionadas podem ser interessantes dado
#meetingdata – P12
48
que, quanto mais profunda uma classe na hierarquia, menosexemplos positivos ela possui, dificultando o aprendizado super-visionado.
#meetingdata – P12
49
Estimadores, pontual e intervalar, paradados com censuras intervalar
Estela Maris Pereira Bereta e Teresa Cristina Martins DiasUFSCar
Resumo
Dados com censura intervalar ocorrem com frequencia em es-tudos de diversas areas, em situacoes em que o evento de inte-resse e observado com periodicidade. Neste caso, o tempo exatoda ocorrencia nao e conhecido (observado), porem sabe-se que oevento ocorreu dentro de um intervalo (conhecido) de tempo. Estetipo de observacao e tratada em analise de sobrevivencia usandotecnicas apropriadas que considera censura intervalar. Pradhane Kundu (2014) apresentam varios metodos de estimacao pon-tual (algoritmo EM, aproximacao de Lindley e importance sam-
pling) no caso de tempos censurados de forma intervalar, comdistribuicao exponencial e Weibull. Tambem, os autores apresen-tam um algoritmo para a construcao de intervalos de confianca,na abordagem Bayesiana. Sob a abordagem Bayesiana, obtemosestimativas pontuais e, para as estimativas intervalares apresen-tamos uma alternativa ao metodo proposto por Pradhan e Kundu(2014). Para ilustrar a teoria, simulamos dados para diferen-tes tamanhos amostrais, considerando tempos com distribuicaoWeibull.
#meetingdata – P13
50
Haphazard intentional sampling techniquesin network design of monitoring stations
Julio M. SternIME-USP
Resumo
In contemporary empirical science, sampling randomization isthe the golden standard to ensure unbiased, impartial, or fair re-sults, see Pearl (2000) and Stern (2008). Randomization worksas a firewall, a technological barrier designed to prevent spuri-ous communication of vested interests or illegitimate interferencebetween parties in the application of interest, that may be a sci-entific experiment, a legal case, an auditing process, or manyother practical applications. In randomized experiments, a com-mon issue is avoid random allocations yielding groups that dif-fer meaningfully with respect to relevant covariates. This is acritical issue, as the chance of at least one covariate showing a”significant di�erence”between two treatment groups increasesexponentially with the number of covariates. Haphazard Intenti-onal Sampling is a statistical technique developed with the spe-cific purpose of yielding sampling techniques that, on one hand,have all the benefits of standard randomization and, on the otherhand, avoid exponentially large (and costly) sample sizes. Thisapproach, proposed at Lauretto et al (2012) and Fossaluza et al(2015), combines intentional sampling using goal optimizationtechniques with random perturbations that induce good decou-pling properties. On one hand, this method has a computati-onal cost that is cubic with the number of covariates. On theother hand, this method yields experimental designs that avoidexponentially large sample sizes, allowing great economical bene-fits that, nevertheless, do not compromise the statistical integrityof the experiment or auditing process. In this article, we applythe aforementioned Haphazard Intentional Sampling as a statis-tical technique to study how to rationally re-engineer networks
#meetingdata – P14
51
of measurement stations for atmospheric pollution and/or gasemissions. We show how such re-engineering or re-design cansubstantially decrease the operation cost of monitoring networkswhile providing, at the same time, support for arriving at conclu-sions or taking decisions with the same statistical power as inconventional setups.
#meetingdata – P14
52
Random Bernstein polynomials – anonparametric bayesian estimation of
densities via ABCLeandro Augusto Ferreira – IME-USP/Sharecare e
Victor Fossaluza – IME-USP
Resumo
In recent years, many statistical inference problems have beensolved by using Markov Chain Monte Carlo (MCMC) techniques.However, it is necessary to derivate the analytical form for thelikelihood function. Although the level of computing has increa-sed steadily, there is a limitation caused by the di�culty or themisunderstanding of how computing the likelihood function. TheApproximate Bayesian Computation (ABC) method dispenses theuse of the likelihood function by simulating candidates of poste-rior distributions and using an algorithm to accept or reject theproposed candidates. This work presents an alternative nonpa-rametric estimation method of smoothing empirical distributionswith random Bernstein polynomials via ABC method. The Berns-tein prior is obtained by rewriting the Bernstein polynomial interms of k mixtures of beta densities and mixing weights. Someexamples are used to illustrate the method proposed.
#meetingdata – P15
53
Semi-supervised predictive clustering treefor protein subcellular localization
Leonardo Utida Alcantara – UFSCar,Ricardo Cerri – UFSCar e
Isaac Triguero Velazquez – University of Nottingham
Resumo
The prediction of protein subcellular localization is a really im-portant classification task, because the location of proteins in-side a cell is directly related to these protein’s functions. Thereare many proteins that reside at the same time in two or morelocations within a cell or move between multiple locations, be-cause of this we need to attack this problem using multi-labelclassification (MLC) algorithms. The supervised MLC approachis well-established in the literature; however, it presents somedisadvantages such as: (i) the need for a large amount of label-led instances to train the classifier; (ii) this approach ignores thefact that unlabelled instances can provide valuable informationfor the classification; and (iii) there are a lot of areas, includingbioinformatics, in which unlabelled data is abundant but manu-ally labelling an instance is too expensive and time-consuming.Semi-Supervised Learning (SSL) is a subfield of machine lear-ning, in which the learner tries to exploit both labelled and unla-belled data at the same time to improve the accuracy of the lear-ning algorithm. The main goal of this project was to investigatehow to use SSL to improve the classification in MLC datasets, fo-cusing on the protein subcellular localization prediction problem.In order to do this, we proposed a new SSL algorithm based onthe predictive clustering tree framework, that is capable of cons-tructing a decision tree using the information from both labelledand unlabelled instances to decide the best attribute to split thedata at each node. We tested our new approach in many SSLscenarios for inductive and transductive learning, evaluating theaccuracy of our classifier in many multi-label datasets (MLDs),
#meetingdata – P16
54
3 proteins datasets (from virus, plants and fungus) and 4 well-known multi-label datasets. The results showed that our methodcould improve the classification in the SSL scenarios for most ofthe MLDs, proving that our method is able to exploit labelled andunlabelled data.
#meetingdata – P16
55
Implementacao de Inferencia Bayesiana naoParametrica para Processos Pontuais
EspaciaisLucas Eduardo de Moraes e Danilo Lourenco Lopes
UFSCar
Resumo
Padroes pontuais espaciais sao dados coletados na forma de pon-tos, distribuıdos dentro de uma regiao do espaco surgem em di-versas situacoes, como na biologia, epidemiologia ou criminolo-gia. Neste tipo de dados, as localizacoes sao chamadas de even-tos, e tanto a quantidade quanto as localizacoes desses eventossao aleatorias. Padroes pontuais podem apresentar comporta-mentos como: agrupamento, inibicao, regularidade ou nao apre-sentar nenhuma estrutura especıfica. Um dos objetivos princi-pais da analise de dados deste tipo e entender e descrever taispadroes pontuais. Neste trabalho apresentamos uma base paraentender o que caracteriza um processo pontual, modelos quebuscam descrever da melhor forma possıvel padroes observadose apresentar metodos de estimacao de caracterısticas de inte-resse, como a funcao de intensidade, utilizando tecnicas de in-ferencia Bayesiana nao parametrica.
#meetingdata – P17
56
Alocacao intencional fortuita: um estudo decaso em avaliacao de software
Marcelo de Souza Lauretto – EACH-USP,Higor A. de Souza – IME-USP eMarcos L. Chaim – EACH-USP
Resumo
Metodos de alocacao intencional sao procedimentos nao proba-bilısticos de selecao e alocacao de indivıduos, com o objetivo deatingir criterios de representatividade e balanceamento. Tal abor-dagem e indicada para pesquisas exploratorias ou estudos-pilotonos quais a raridade de indivıduos, restricoes eticas ou de custolimitam severamente os tamanhos das amostras e impedem aadocao da amostragem aleatoria tradicional. Em trabalhos ante-riores, apresentamos a alocac˜ao intencional fortuita, um metodode alocacao baseado no balanceamento otimo de covariaveis deinteresse, combinado com perturbacoes aleatorias. Neste traba-lho, estendemos a abordagem de alocacao fortuita e apresenta-mos um estudo de caso em avaliacao de software. Experimentosnumericos mostram que a alocacao fortuita prove grupos expe-rimentais bem balanceados, mesmo na presenca de um baixonumero de participantes.
#meetingdata – P18
57
Using Markov Chain in Data ScienceMarcio Luis Lanfredi Viola – UFSCar,
Jesus E. Garcıa – UNICAMP eVeronica A. Gonzalez-Lopez – UNICAMP
Resumo
In this work we show the possibility of using the Markov chainas a tools for data analysis, particularly, in data science. More-over, we show an example that involves statistical classificationof languages according to their rhythmic features, using speechsamples. The data set consists of sentences belonging to eightlanguages, Catalan, Dutch, English, French, Italian, Japanese,Polish and Spanish. This is an important open problem in phono-logy. The linguistic conjecture is that this languages are dividedinto three classes according to their rhythmic properties: stress-timed, syllable-timed or mora-timed. A persistent di�culty onthis issue is that the speech samples correspond to several sen-tences produced by diverse speakers, corresponding to a mixtureof distributions. The usual procedure to deal with this problemhas been to choose a subset of the complete sample which seemsto best represent each language. The dataset used for this analy-sis are recordings of various speakers, who read the phrases intoa microphone. To classify the languages, firstly we will fit a modelfor each language, using our robust procedure and then, we usethe relative entropy between the models (for each language) as adistance for the clustering of the languages.
#meetingdata – P19
58
Uma abordagem distribuıda para sistemasfuzzy evolutivos multiobjetivos em
problemas de Big DataMaykon Rocha Santana
UFSCar
Resumo
Abordagens tem sido aplicadas para a geracao automatica deSistemas Fuzzy a partir de conjunto de dados e com o uso detecnicas como Algoritmos Geneticos, Redes Neurais, dentre ou-tras. Nesse cenario, questoes relacionadas a dimensionalidade, aprecisao e a complexidade dos sistemas obtidos tem sido campode estudo em diversos trabalhos. Os pesquisadores do Labo-ratorio CIG (Computational Intelligence Group) do Departamentode Computacao da Universidade Federal de Sao Carlos (UFSCar)- Sao Paulo - Brasil tem desenvolvido trabalhos voltados para,a partir de conjuntos de dados, realizar a extracao das Basesde Regras necessarias para a geracao dos chamados SistemasFuzzy Baseados em Regras (SFBR). Em geral, sao usados nessestrabalhos os Algoritmos Geneticos Multiobjetivos, em especial oNSGA-II, para tratar as questoes referente ao balanceamento en-tre a interpretabilidade e a precisao dos conjuntos de regras quefazem parte dos Sistemas Fuzzy construıdos. Todavia, quandose considera contextos em que os dados tem grande dimensio-nalidade, como em problemas de Big Data, a geracao dos SFBRincorre em processamentos bastante custosos. Tendo isso emvista, e proposto o desenvolvimento de uma abordagem que via-bilize escalabilidade quando do uso da computacao paralela nageracao de Sistemas Fuzzy com maximizacao da precisao (maioracuracia) e minimizacao da complexidade (menor numero de re-gras e antecedentes das regras) em contextos de problemas deBig Data. O framework de computacao paralela Apache Sparksera usado para explorar as caracterısticas de paralelismo exis-tentes nos problemas de geracao de SFBR. A eficacia da aborda-gem sera averiguada por intermedio de experimentos realizados
#meetingdata – P20
59
em conjuntos de dados que envolvam dados de grande dimensi-onalidade no que diz respeito as precisoes, complexidades, con-vergencias e escalabilidades dos sistemas obtidos.
#meetingdata – P20
60
Analise estatıstica do desempenho do PTnas eleicoes proporcionais entre 2000 e
2016, e previsoes para 2018Pedro Luiz Paolino Chaim e Marcio Poletti Laurini
FEARP-USP
Resumo
Neste artigo realizamos uma analise estatıstica do desempenhodo PT (Partido dos Trabalhadores) nas eleicoes proporcionais bra-sileiras de 2000 a 2016. Entao, utilizando um modelo dinamicode regressao Beta, aumentado com um componente de efeitosaleatorios correlacionado no espaco e no tempo, apresentamosprevisoes para a proporcao de votos validos recebidos pelo PTpara deputado estadual e deputado federal nas eleicoes de 2018.Nossos resultados apontam para a relevancia de se considerara elementos geograficos na caracterizacao do comportamento doeleitor brasileiro. Previsoes sugerem piora consideravel no de-sempenho do PT nas eleicoes de 2018, quando comparado a 2014.
#meetingdata – P21
61
Mineracao de regras de associacaotemporais envolvendo dados quantitativos
contınuosRafael Sto�alette Joao, Laıs Vilioni e Silva, Marcela X. Ribeiro
UFSCar
Resumo
O crescente volume de dados gerados constantemente demandade tecnicas cada vez mais eficientes para a aquisicao de informa-coes uteis. O presente estudo objetiva a definicao e construcaode um novo metodo para refinar o processo de mineracao de re-gras de associacao ao incorporar o aspecto temporal de formaexplıcita, associado a dados quantitativos contınuos. Cada pontotemporal em que uma caracterıstica (atributo) assume um valorde interesse dependente da distribuicao de probabilidade que arepresenta. Os pontos temporais sao, entao, componentes deum intervalo de interesse da caracterıstica. As relacoes tempo-rais entre os intervalos de interesse das caracterısticas sao ma-peadas por meio do uso da Algebra Intervalar de Allen. Padroespodem ser identificados e regras de associacao construıdas noconjunto resultante de relacoes temporais de interesse. Ate opresente momento, os experimentos resultaram regras estrutu-ralmente semelhantes aquelas geradas pela mineracao de regrasde associacao tradicional. Entretanto, as regras sao diretamenterelacionadas aos intervalos temporais associados aos dados. Oque evidencia que a tecnica e capaz de gerar regras de associacaocom uma nova semantica que expressa quais as relacoes entrea duracao e ocorrencia eventos importantes presentes na basede dados. Ao mesmo passo em que e capaz de lidar com da-dos quantitativos contınuos sem a necessidade da tarefa de dis-cretizar os dados. Em termos de eficiencia computacional, anova estrategia nao implicou em acrescimos consideraveis parao tempo de execucao do processo de mineracao de regras deassociacao. Esta nova estrategia tem o potencial de refinar o
#meetingdata – P22
62
processo de mineracao de regras de associacao em dados quan-titativos contınuos, pois incorpora o aspecto da temporalidade,que resulta em regras diferentes (com novas informacoes) daque-las geradas pelo emprego da estrategia tradicional.
#meetingdata – P22
63
Aplicacao de aprendizado ativo na tarefa declassificacao de textos em fluxo de dados
Suzane Carol de Lima e Heloisa de Arruda CamargoUFSCar
Resumo
A mineracao de dados em fluxo tem como objetivo incorporara informacao do fluxo de dados em evolucao ao modelo, semter que reaprender o modelo do zero em um processo dinamicoque deve encapsular a coleta de dados, a aprendizagem e a fasede validacao em um unico ciclo contınuo. Uma das tecnicasde mineracao de dados e a classificacao e um dos desafios daclassificacao em fluxo de dados e obter todos os dados rotuladospara realizar o treinamento do modelo. Uma das recentes abor-dagens utilizadas para solucionar esse problema e a utilizacaodo aprendizado ativo. O aprendizado ativo visa amenizar o pro-cesso de rotulagem dos dados atraves dos mecanismos de con-sultas de dados nao rotulados. Dessa maneira, e possıvel redu-zir a quantidade de dados rotulados necessarios para o treina-mento do modelo. Este projeto objetiva desenvolver metodos declassificacao de texto com o aprendizado ativo que se adapte asmudancas da distribuicao dos dados. Os metodos devem man-ter um desempenho constante e alta precisao ao longo do tempo.Os metodos desenvolvidos incluem estrategias capazes de reali-zar a identificacao e selecao dos dados mais informativos que seadapte as mudancas que possam ocorrer ao longo do fluxo e autilizacao de um oraculo artificial que seja capaz de atribuir osrotulos dos dados selecionados sem a intervencao humana, tra-zendo uma contribuicao adicional as estrategias de consultas deaprendizado ativo em fluxo de dados existentes.
#meetingdata – P23
64
O modelo de copula de Frank para dados desobrevivencia bivariados: modelagem,
estimacao Bayesiana e pontos influentesTaıs Roberta Ribeiro - USP/UFSCar e
Adriano K. Suzuki - ICMC-USP
Resumo
Nos dias de hoje esta cada vez mais comum nos depararmos comsituacoes em que a suposicao de independencia entre os tem-pos de sobrevivencia pode nao ser valida. Sendo assim, essasprovaveis associacoes entre os tempos de sobrevivencia sao fre-quentemente modeladas por meio de modelos de fragilidade. Noentanto, uma outra alternativa que vem sendo cada vez mais de-senvolvida ultimamente para modelar a dependencia entre da-dos multivariados, e o uso dos modelos de copulas. Neste tra-balho propomos o modelo de copula de Frank para modelar adependencia de dados bivariados de sobrevivencia na presencade covariaveis e observacoes censuradas. Para fins inferenciais,realizamos uma abordagem bayesiana usando metodos MonteCarlo em Cadeias de Markov (MCMC). Algumas discussoes so-bre os criterios de selecao de modelos foram apresentadas. Como objetivo de detectar observacoes influentes utilizamos o metodobayesiano de analise de influencia de delecao de casos baseadona divergencia. Por fim, mostramos a aplicabilidade dos modelospropostos a conjuntos de dados simulados e reais.
#meetingdata – P24
65
Proposta de geracao de regras declassificacao multirrotulo simultaneamente
eficazes e interpretaveis via otimizacaomultiobjetivo com algoritmos geneticos
Thiago Zafalon Miranda e Ricardo CerriUFSCar
Resumo
O recente aumento do interesse por modelos de classificacao in-terpretaveis e, em parte, consequencia de regulamentos como oGeneral Data Protection Regulation, que asseguram, entre ou-tros, o direito a explicacao a sujeitos afetados negativamente porsistemas de tomada de decisao automatica. Neste trabalho, pre-tende-se apresentar ao que, especificamente, diferentes autoresse referem quando utilizam o termo interpretabilidade, que co-mumente e utilizado para descrever diferentes propriedades deum modelo. Visando a geracao de modelos de classificacao quetem simultaneamente grande poder preditivo e elevada interpre-tabilidade, algoritmos geneticos multiobjetivo serao utilizados pa-ra gerar conjuntos de regras de classificacao multirrotulo. Nestetipo de classificacao, diferentemente da tradicional (monorrotulo),as classes a cujos objetos podem pertencer nao sao mutuamenteexclusivas, ou seja, alguns objetos podem pertencer a multiplasclasses simultaneamente. As regras de classificacao serao evo-luıdas de acordo com a abordagem de Pittsburg, ou seja, cadaindivıduo da populacao representara um conjunto de regras (umclassificador multirrotulo). Essa abordagem possibilita, a cadaiteracao do algoritmo, a identificacao de uma aproximacao doConjunto Otimo de Pareto. Resultados preliminares indicam queestrategias simples, como ordenacao lexicografica dos objetivos,nao produzem consistentemente resultados satisfatorios; ora assolucoes geradas sao pouco diversas, ora sao pouco interpretaveis.
#meetingdata – P25
66
Agnostic tests can control the type I andtype II errors simultaneouslyVictor Azevedo Coscrato – USP/UFSCar,
Rafael Izbicki – UFSCar eRafael Bassi Stern – UFSCar
Resumo
Despite its common practice, statistical hypothesis testing pre-sents challenges in interpretation. For instance, in the standardfrequentist framework there is no control of the type II error. As aresult, the non-rejection of the null hypothesis (H0) cannot rea-sonably be interpreted as its acceptance. We propose that this di-lemma can be overcome by using agnostic hypothesis tests, sincethey can control the type I and II errors simultaneously. In orderto make this idea operational, we show how to obtain agnostic hy-pothesis in typical models. For instance, we show how to build(unbiased) uniformly most powerful agnostic tests and how to ob-tain agnostic tests from standard p-values. Also, we present con-ditions such that the above tests can be made logically coherent.Finally, we present examples of consistent agnostic hypothesistests.
#meetingdata – P26
67