Livro de Programa, Resumos e Anotações · tat´ıstica, classificaç ao, mineraç˜ ao de...

18 a 20 de Outubro, 2018 - UFSCar, São Carlos-SP

#meetingdata

Organização e Apoio:

Livro de Programa, Resumos e Anotações

#meetingdata

Ciencia de Dados e um campo multidisciplinar que englobametodos e processos para obtencao de conhecimento ou com-preensao de premissas a partir de dados (informacoes).

As solucoes apresentadas em Ciencias de Dados empre-gam metodos de diferentes areas da Matematica, Estatıstica,Ciencia da Informacao, Computacao Cientıfica e especialmen-te nas subareas de aprendizado de maquina, modelagem es-tatıstica, classificacao, mineracao de dados, inteligencia arti-ficial, metodos preditivos e modelos probabilısticos.

Conceitos estatısticos e analise de dados sao empregadospara entender e analisar fenomenos atuais. Grandes quanti-dades de dados estao disponıveis e sua analise depende naoapenas dos metodos estatısticos usuais, mas tambem do usode tecnicas computacionais para resolver o problema de Big

Data. Dessa forma, entende-se que Ciencias de Dados unenaturalmente as ciencias Estatıstica e Computacao, desen-volvendo solucoes para os desafios enfrentados nas areas deAstronomia, Biologia, Epidemiologia, Linguıstica, Medicina,entre outras.

O #meetingdata e um encontro para discutir/apresentar odesenvolvimento de Ciencias de Dados sob o domınio de mul-tidisciplinaridades fundamentais para a pesquisa. Os topicoscobrirao desde a analise estatıstica ate metodos de aprendi-zado de maquina, promovendo uma busca por solucoes atu-

ais para os desafios e necessidades da sociedade.

O site do evento e:http://www.datascience.ufscar.br/meetingdata

Sao Carlos, 18 de Outubro de 2018

Comissao Organizadora

ORGANIZACAO

Comite de Organizacao

• Adriano Polpo (DEs-UFSCar)• Agatha Sacramento Rodrigues (IME-USP/FMUSP)• Danilo Lourenco Lopes (DEs-UFSCar)• Diego Furtado da Silva (DC-UFSCar)• Guilherme Barreto Fernandes (Serasa Experian)• Heloisa de Arruda Camargo (DC-UFSCar)• Murilo Cantoni (DEs-UFSCar)• Rafael Bassi Stern (DEs-UFSCar)• Ricardo Ciferri (DC-UFSCar)• Teresa Cristina Martins Dias (DEs-UFSCar)

Comite Cientıfico

• Adriano Polpo (DEs-UFSCar)• Estevam Rafael Hruschka Junior (DC-UFSCar)• Hermes Senger (DC-UFSCar)• Marcio Alves Diniz (DEs-UFSCar)• Rafael Izbicki (DEs-UFSCar)• Ricardo Cerri (DC-UFSCar)

Contato:

• datascience@ufscar.br

Quinta-feira (18/10) Sexta-feira (19/10) Sabado (20/10)

09:00-09:25 Sessao Oral O3 Sessao Oral O7Joao Carlos P. Ferreira Ana Carolina Simionato

09:25-10:15 Conferencia C2 Conferencia C6Estevao Vieira Alexandre Chiavegatto

10:15-10:35 Co�ee Break Co�ee Break

10:35-11:00 Sessao Oral O4 Sessao Oral O8Marcio A. Diniz Osvaldo A. Junior

11:00-11:50 Conferencia C3 Conferencia de EncerramentoIgor Braga Rafael Izbicki

11:50-12:00Horario de Almoco

Encerramento12:00-13:5013:50-14:00 Abertura

14:00-14:50 Conferencia de Abertura Conferencia C4Andre de Carvalho Rafael Monteiro

14:50-15:15 Sessao Oral O1 Sessao Oral O5Guaraci Requena Adriano B. Morales

15:15-15:40 Sessao Oral O2 Sessao Oral O6Eduardo K. Nakao Carlos Roberto S. Junior

15:40-16:30 Sessao Poster Sessao Postercom cafe com cafe

16:30-17:20 Conferencia C1 Conferencia C5Otavio Vasques Florencia Leonardi

Tabela 2: Contribuicoes

Apresentador(a) Tıtulo Pag. Data Sessao

Andre de Carvalho AutoML: Automated Machine Lear-ning

12 18/Out14:00-14:50

Otavio Vasques Reconstruindo modelos de credito esegmentacao com dados de celulares

13 18/Out16:30-17:20

Estevao Vieira Como nosso cerebro representa otempo

14 19/Out9:25-10:15

Igor Braga Aprendizado de maquina sob a in-fluencia de covariate-shift

15 19/Out11:00-11:50

Rafael Monteiro Data Science & Data Engineering apli-cados ao mercado de capitais Brasi-leiro

16 19/Out14:00-14:50

Continua na pr´oxina p ´agina

Tabela 2 – Contribuic˜oes

Florencia Leonardi Estimadores regularizados para pro-blemas de alta dimensao

17 19/Out16:30-17:20

Alexandre Chiave-gatto

Aplicacoes de machine learning emsaude

18 20/Out9:25-10:15

Rafael Izbicki FlexCode: modelando incertezas emproblemas de predicao

19 20/Out11:00-11:50

Guaraci Requena Multinomial regression via binomialregressions

20 18/Out14:50-15:15

Eduardo Kazuo Na-kao

Manifold learning for non-linear di-mensionality reduction in hyperspec-tral image unsupervised classification

21 18/Out15:15-15:40

Joao Carlos Poloni-ato Ferreira

Aplicacao do FBST em modelos baye-sianos de alta dimensao

23 19/Out09:00-09:25

Marcio Alves Diniz Um experimento sobre previsoes pro-babilısticas

24 19/Out10:35-11:00

Adriano BarasalMorales

Firm location: an approach using spa-tial point process

25 19/Out14:50-15:15

Carlos Roberto Sil-veira Junior

Mineracao de regras de associacaoespaco-temporais tematicas aplicadaa imagens de explosoes solares

26 19/Out15:15-15:40

Ana CarolinaSimionato

Sustentabilidade e curadoria digitalpara colecoes de patrimonio cultural

28 20/Out09:00-09:25

Osvaldo AnacletoJunior

Generalising dynamic Bayesiannetworks to accommodate causaland symmetric signals in high-dimensional time series

30 20/Out10:35-11:00

Agatha SacramentoRodrigues

Curva de crescimento fetal personali-zada

31 18-19/Out15:40-16:30

Alejandra EstefanıaPatino Hoyos

Adaptative significance levels in nor-mal mean hypothesis testing

33 18-19/Out15:40-16:30

Alisson Hayasi daCosta

Performance analysis of deep neuralnetworks in piRNAs classification

34 18-19/Out15:40-16:30

Amanda Azevedodos Santos

Recursos sonoros e linked open data:MusicBrainz

35 18-18/Out15:40-16:30

Aulida BereniceMoretti dos Santos

Dados abertos: criacao de novosnegocios

37 18-19/Out15:40-16:30

Brendon GouveiaCambuı

Feature extraction for multi-target le-arning

39 18-19/Out15:40-16:30

Bruna Zamith San-tos

Predicting protein functions via inte-raction prediction

40 18-19/Out15:40-16:30

Camila LorencettiBrolo

Comparacao de testes de hipotesespara duas medias em variaveis do tipoproporcao

42 18-19/Out15:40-16:30

Camila SgarioniOzelame

Redes Bayesianas: uma comparacaoentre metodos de estimacao de estru-tura

43 18-19/Out15:40-16:30

Dhiogo Jose Correade Sa

Momentos de vida: mineracao de tex-tos e Big Data para oferecimento deservicos personalizados

45 18-19/Out15:40-16:30

Diogo Barboza Mo-reira

Obtencao de curvas de confiabilidadeem testes de vida acelerados

47 18-19/Out15:40-16:30

Elaine Cecılia Gatto Proposta de um modelo de apren-dizado competitivo para classificacaohierarquica multirrotulo

48 18-19/Out15:40-16:30

Estela Maris Pe-reira Bereta

Estimadores, pontual e intervalar,para dados com censuras intervalar

50 18-19/Out15:40-16:30

Julio M. Stern Haphazard intentional sampling tech-niques in network design of monito-ring stations

51 18-19/Out15:40-16:30

Leandro AugustoFerreira

Random Bernstein polynomials – anonparametric bayesian estimation ofdensities via ABC

53 18-19/Out15:40-16:30

Leonardo UtidaAlcantara

Semi-supervised predictive clusteringtree for protein subcellular localization

54 18-19/Out15:40-16:30

Lucas Eduardo deMoraes

Implementacao de inferencia Bayesi-ana nao parametrica para processospontuais espaciais

56 18-19/Out15:40-16:30

Marcelo de SouzaLauretto

Alocacao intencional fortuita: um es-tudo de caso em avaliacao de software

57 18-19/Out15:40-16:30

Marcio Luis Lan-fredi Viola

Using Markov chain in data science 58 18-19/Out15:40-16:30

Maykon RochaSantana

Uma abordagem distribuida para sis-temas fuzzy evolutivos multiobjetivosem problemas de Big Data

59 18-19/Out15:40-16:30

Pedro Luiz PaolinoChaim

Analise estatıstica do desempenho doPT nas eleicoes proporcionais entre2000 e 2016, e previsoes para 2018

61 18-19/Out15:40-16:30

Rafael Sto�aletteJoao

Mineracao de regras de associacaotemporais envolvendo dados quantita-tivos contınuos

62 18-19/Out15:40-16:30

Suzane Carol deLima

Aplicacao de aprendizado ativo na ta-refa de classificacao de textos em fluxode dados

64 18-19/Out15:40-16:30

Taıs Roberta Ri-beiro

O modelo de copula de Frank para da-dos de sobrevivencia bivariados: mo-delagem, estimacao Bayesiana e pon-tos influentes

65 18-19/Out15:40-16:30

Thiago Zafalon Mi-randa

Proposta de geracao de regras declassificacao multirrotulo simultane-amente eficazes e interpretaveis viaotimizacao multiobjetivo com algorit-mos geneticos

66 18-19/Out15:40-16:30

Victor Azevedo Cos-crato

Agnostic tests can control the type Iand type II errors simultaneously

67 18-19/Out15:40-16:30

AutoML: Automated Machine LearningAndre Carlos Ponce de Leon Ferreira de Carvalho

ICMC–USP

Resumo

As the number of successful applications of Machine Learningalgorithms grows, there is also an increase in the need to makethese algorithms easily accessible by users without Machine Le-arning expertise. There have been several e�orts in this direc-tion, involving not only the recommendation of the most suitablealgorithm, but also their most appropriate hyper-parameter va-lues. These several e�orts started a new research area, namedAutomated Machine Learning, AutoML, which has attracted theattention of researchers and practitioners not only from the aca-demia, but also from several companies working with data sci-ence. This talk will present the main approaches and recent ad-vances in this area, covering also works carried out in the Analy-tics Laboratory, at USP Sao Carlos.

#meetingdata – Conferencia de Abertura

Reconstruindo modelos de credito esegmentacao com dados de celulares

Otavio VasquesSerasa Experian - IF-USP

Resumo

Como dados provenientes de aparelhos celulares auxiliam a de-senvolver modelos de credito e segmentacao de marketing? Dis-cutimos os desafios e solucoes para coletar e produzir modelos apartir de variaveis provenientes de aparelhos de celular, aplicati-vos, localizacao, etc.

#meetingdata – Conferencia 1

Como nosso cerebro representa o tempoEstevao Vieira

Serasa Experian – UFABC

Resumo

Um problema discutido em neurociencia e como os nossos cere-bros representam o mundo externo (ou conceitos internos). Apre-sentamos algumas tecnicas de aprendizado de maquina para me-dir a representacao de tempo no cerebro, a partir da atividadede neuronios durante a realizacao de uma tarefa dependente dotempo, encontrando que regioes do cerebro mudam sua repre-sentacao atraves de repeticoes da tarefa.

Aprendizado de maquina sob a influencia decovariate-shift

Igor BragaBig Data

Resumo

Covariate-shift acontece quando as bases de treinamento e deteste nao compartilham a mesma distribuicao das variaveis deentrada. Esse fenomeno esta presente em diversos problemasde mundo real e, potencialmente, quando a distribuicao de testeesta sob o controle de terceiros. Nesta palestra, mostramos comocovariate-shift prejudica o desempenho dos modelos aprendidos,e abordamos tecnicas para detectar e tratar esse problema.

Data Science & Data Engineering aplicadosao mercado de capitais Brasileiro

Rafael MonteiroSerasa Experian – Mackenzie

Resumo

Apresentamos como tratar as dezenas de gigabytes de dados ge-rados por dia, provenientes da bolsa de valores (em tempo real),utilizando o algoritmo de Long Term Short Memory Networks(LSTM) para identificacao de padroes e analises.

Estimadores regularizados para problemasde alta dimensao

Florencia LeonardiIME–USP

Resumo

Nesta palestra serao apresentados alguns problemas tıpicos deestimacao em altas dimensoes, como o caso de modelos de re-gressao linear com mais variaveis que observacoes ou de mode-los graficos onde o numero de vertices e maior que o tamanhoda amostra. Introduziremos estimadores do tipo LASSO comregularizacao baseada na norma l1, e explicaremos quais saoas vantagens deste tipo de proposta. Alem da exposicao teorica,apresentaremos alguns exemplos de aplicacao.

Aplicacoes de machine learning em saudeAlexandre Dias Porto Chiavegatto Filho

FSP–USP

Resumo

O rapido aumento na quantidade de dados tem aberto novasoportunidades para a saude brasileira. Entre as varias novida-des proporcionadas pelo big data, destaca-se o uso de modelospreditivos de machine learning para melhorar a qualidade e aavaliacao dos servicos de saude. A palestra tem como objetivoapresentar aplicacoes praticas desses modelos na area da saude,alem de seus benefıcios e limitacoes.

FlexCode: modelando incertezas emproblemas de predicao

Rafael IzbickiUFSCar

Resumo

Grande parte das ferramentas de aprendizado de maquina temcomo objetivo criar boas predicoes. Contudo, raramente e possı-vel faze-las com 100% de acuracia. Assim, em muitas aplicacoes,apenas fornecer predicoes nao explora toda a informacao pre-sente nos dados. Nesta apresentacao, mostraremos uma fer-ramenta que e capaz de modelar incertezas em problemas depredicao. Tambem mostraremos seu desempenho na predicao dageolocalizacao de tweets, assim como para diversos problemas decosmologia.

#meetingdata – Conferencia de Encerramento

Multinomial regression via binomialregressions

Guaraci Requena – IME-USP,Carlos Alberto de Braganca Pereira – UFMT/IME-USP e

Adriano Polpo – UFSCar

Resumo

The most used multinomial regression model is the baseline-category logit. However, this is not the only way to build it,neither in relation to the baseline category nor in relation to thelogit link function. As we may factorize the multinomial distribu-tion for D categories in terms of D-1 binomial ones - through re-cursive and exhaustive binary partitioning of the set of categories- we may define the multinomial regression in terms of binomialones, bringing all the flexibility concerning the link functions.Likewise, to define D-1 binary classifiers - from those binomialregressions - leads us to build a multi-class classifier. Unfortuna-tely, the class of factorizations could be very extensive accordingto the number of categories (approximately 35 ⇥ 106 for 10 cate-gories, for example), so we could have a very large class of dis-tinct multinomial models and/or multi-class classifiers. Facingthis problem, we suggest two step-by-step approaches throughminimizations of involved binary classification risks, based onthe one-versus-one and one-versus-rest approaches. In order tostudy their performances, we apply them in a psychiatric pro-blem, precisely in Obsessive-Compulsive Disorder, in which theaim is to classify the patient, who has features observed froma global severity scale (Y-BOCS), in a dimensional severity scale(DY-BOCS), seeking a more precise phenotype.

#meetingdata – Sessao Oral 1

Manifold learning for non-lineardimensionality reduction in hyperspectral

image unsupervised classificationEduardo Kazuo Nakao e

Alexandre Luis Magalhaes LevadaUFSCar

Resumo

Hyperspectral images characteristics of high dimensionality andstrong inter-pixel correlation indicate that its possible that thevectors of those images matrixes are embedded in an non-linearmanifold instead of an euclidean one. To help elucidating thissupposition, one can try to reduce those images dimensionalityusing linear and manifold learning methods prior to a clusteringalgorithm and then compute an evaluation metric on the di�e-rent results. If the validation index scores higher on non-linearreduction clustering results, this is an indication that hyperspec-tral images in fact contains non-linear relations. One approachof experimenting on this scenario for example is executing Princi-pal Component Analysis, Isometric Feature Mapping and LocallyLinear Embedding (each one in separate fashion) and then de-ploy K-Means and Gaussian Mixture Model clustering methodsat each separate result for several di�erent images. Then theperformance can be measured by Kappa Coe�cient if originalclasses labels are provided (external evaluation). It’s worth noti-cing that the selection of target reduced dimensionality must bedone in basis of some know criteria, for example the division ofthe first largest eigenvalues of the reduction methods transfor-mation matrices by the sum of all of those eigenvalues. Anotherpoint to notice is that the External clustering evaluation criteriaonly works well when the clustering generated class labels aresemantically the same as the original classes labels. This can beachieved by solving the minimal pairing cost on a bipartite graph

(this optimal allocation problem can be solved by the Munkres al-gorithm for example). There is a known dataset of AVIRIS sensorhyperspectral images that can be used for experimentation.

Aplicacao do FBST em modelos Bayesianosde alta dimensao

Joao Carlos Poloniato Ferreira,Rafael Bassi Stern e

Rafael IzbickiUFSCar

Resumo

Neste trabalho estudamos o problema de controlar o nıvel sig-nificancia do Full Bayesian Significant Test (FBST) em mode-los para densidade de probabilidade. Para isto, mostramos ummetodo que define uma posteriori da densidade de probabili-dade com infinitos parametros. Para conduzirmos o FBST nessasituacao introduzimos a definicao do e-valor modificado que euma maneira de calcular a medida de evidencia do FBST con-trolando o nıvel de significancia do teste ja que o calculo usualnao apresenta bons resultados quando sao testados muitos pa-rametros. Apresentamos entao os resultados de um estudo desimulacao com diferentes distribuicoes de densidade analisandoo comportamento da funcao poder do FBST comparada com afuncao poder do teste de Kolmogorov-Smirnov (KS).

Um experimento sobre previsoesprobabilısticas

Marcio Alves Diniz, Rafael IzbickiDanilo Lourenco Lopes e Luis Ernesto Salasar

UFSCar

Resumo

Durante a ultima Copa do Mundo lancamos a plataforma “FifaExperts”, onde as pessoas podiam informar as probabilidadesque atribuıam a cada possıvel resultado dos jogos da Copa. De-pois de cada jogo, as previsoes recebiam uma pontuacao e os par-ticipantes eram classificados. Dois modelos matematicos tambemforam incluıdos como participantes. Nesta apresentacao discu-timos brevemente a experiencia e apresentamos resultados pre-liminares da analise dos dados coletados.

Firm location: an approach using spatialpoint process

Adriano Barasal Morales e Marcio Poletti LauriniFEARP-USP

Resumo

We propose an application of spatial statistics to model the lo-cation patterns of new services firms in the city of Sao Paulo.In this paper, we assume that the spatial location of these firmswas generated through a two-dimensional point process and thuswe applied two distinct models: one based on non-stochastic in-tensity based on the Poisson process, and a stochastic intensitymodel based on the Log Gaussian Cox process (LGCP). The re-sults show the usefulness of these models the construction ofspatial location models, combining di�erent data sources andintroducing new perspectives on the empirical study of locationeconomics. Keywords: Firm location, spatial statistics, Poissonpoint process, LGCP, INLA.

Mineracao de regras de associacaoespaco-temporais tematicas aplicada a

imagens de explosoes solaresCarlos Roberto Silveira Junior, Marcela Xavier Ribeiro e

Marilde Terezinha Prado SantosUFSCar

Resumo

Introducao. A analise de clima espacial e uma tarefa complexaque envolve dados espaco-temporais provenientes de imagens desatelite somado a dados de boletins diarios. Tais dados sao ca-racterizados como series temporais de imagens georeferenciadase series temporais de dados semanticos (dados alfanumericosque descrevem as imagens), respectivamente. A mineracao de re-gras de associacao pode auxiliar na analise desses dados, comoum mecanismo para a revelacao de padroes novos e uteis parao especialista de domınio. No entanto, os metodos existentesde mineracao de regras de associacao espaco-temporais aindasao limitados e, em consequencia disso, nao atendem adequada-mente as expectativas para extracao de padroes que relacionaminformacoes espaco-temporais em imagens e dados semanticos.Objetivo. Assim sendo, este trabalho tem por objetivo apoiara analise do clima espacial a partir do desenvolvimento de ummetodo de mineracao de regras de associacao espaco-temporaisque permita relacionar dados solares semanticos e visuais. Ofoco sao series de imagens solares oriundas de satelites. Pro-posta. O metodo desenvolvido e composto por: um novo pro-cesso de ETL - direcionado ao domınio solar; um novo algoritmode mineracao de regras de associacao espaco-temporais, e; umnovo classificador que utiliza as regras espaco-temporais paradeterminar o comportamento futuro de novos dados solares. Oalgoritmo de mineracao proposto avanca o atual estado da arte daarea de mineracao de regras de associacao por dividir a aplicacaodas restricoes espaco-temporais em duas etapas diferentes do

processamento: a aplicacao das restricoes espaciais e feita du-rante a extracao de itemsets frequentes e a aplicacao das res-tricoes temporais durante a geracao das regras de associacaoespaco-temporais tematicas. Desta forma, e possıvel a obtencaode regras que representam a evolucao de um determinado con-junto de eventos e como eles se relacionam entre si. Por fim,essas regras sao utilizadas pelo classificador associativo que foiproposto neste trabalho para predizer o comportamento solarcom base em suas caracterısticas visuais atuais. Resultados. Ometodo proposto gerou regras que foram usadas para a classifi-cacao, apresentando uma precisao de ate 87,3% na classificacaode imagens solares, sendo que esse valor de precisao varia com oextrator de caracterısticas utilizado para representar as imagens.A maior precisao (87,3%) foi obtida utilizado SURF como extratorde caracterısticas e a menor precisao (82,7%) foi utilizado o His-tograma como extrator de caracterısticas. Os resultados obtidosforam analisados pelo especialista de domınio que avaliou comoeficaz e valido o metodo proposto.

Sustentabilidade e curadoria digital paracolecoes de patrimonio culturalAna Carolina Simionato, Maria Ligia Triques,Debora Marroco Ninin e Marcos Teruo Ouchi

PPGCI-UFSCar

Resumo

No atual cenario tecnologico e diante ao crescente volume de da-dos, a area de Ciencia da Informacao busca metodos mais efe-tivos para a organizacao, representacao do conteudo digital decolecoes de patrimonio cultural. Assim, objetiva-se a discutirsobre os processos de criacao e gerenciamento de dados e meta-dados, a partir do estudo da Curadoria Digital e do emprego dosmodelos de dados, destacando-se a importancia da otimizacao esustentabilidade do reuso dos dados em centros de informacao.Nessa perspectiva, as questoes emergentes do atual cenario temconduzido esses estudos para o vies da manutencao do contextodigital, denominado como Curadoria Digital. A partir dos pres-supostos da Curadoria Digital, evidencia a preocupacao em as-segurar a sobrevivencia e o acesso contınuo do material digital,conduzindo a novas praticas teorico-aplicadas para o gerencia-mento dos dados. No entanto, a Curadoria Digital envolve diver-sas acoes de gerenciamento de dados, que consistem em iden-tificar, digitalizar, higienizar, descrever, armazenar e preservar,compartilhar e avaliar os dados. A descricao e tomada comoprincıpio e integrado de todas as acoes, sem descartar as par-ticularidades de cada tipo de acervo. Para tanto, os processosde representacao anteriores a esse cenario, buscavam atender anecessidades especıficas as tipologias de acervos, e hoje, as mes-mas detentoras das colecoes de patrimonio cultural devem agir erepensar o gerenciamento de metadados por meio das atuais tec-nologias que fornecem modos comuns e interoperaveis de acesso,uso e reuso de recursos. Como tambem, devem reconfigurar osprocedimentos comuns que delineiam a um retrabalho no uso

dos metadados em arquivos, bibliotecas e museus, a partir deuma sustentabilidade de dados, resultante do planejamento dossistemas de gerenciamento nos modelos de dados, definicao dosmetadados e de padroes de metadados. Considera-se que osmodelos conceituais acarretam em uma desconstrucao do regis-tro, em que os dados de uma estruturacao monolıtica passama ser retratados por relacoes, desse modo, os instrumentos derepresentacao e os catalogos sao parte de um novo paradigma deligacao de acervos no ambiente digital. A proporcao abstrativados modelos de dados configura-se em um espaco de informacoesque interage com a Web, formando uma rede de dados que inte-gra diversos recursos informacionais. Alem disso, seu potencialesta na possibilidade de disseminar a terceiros seus conteudos,promovendo amplo reuso e acesso aos dados, e principalmente,o gerenciamento desse conteudo e assim, caracterizando a Cu-radoria Digital.

Generalising dynamic Bayesian networks toaccommodate causal and symmetric signals

in high-dimensional time seriesOsvaldo Anacleto Junior

ICMC-USP

Resumo

We present the dynamic chain graph model, which extends dyna-mic Bayesian networks by considering high-dimensional time se-ries exhibiting not only a causal drive mechanism between theircomponents but also symmetric relationships among them. Thismodel can accommodate non-linear and non-normal time seriesand simplifies computation by decomposing a high-dimensionalproblem into separate, simpler sub-problems of lower dimensi-ons. The advantages of the new model will be illustrated by fore-casting tra�c network flows and also by modelling gene expres-sion data from transcriptional networks. A hierarchical extensionof the model will be also introduced.

Curva de crescimento fetal personalizadaAgatha Sacramento Rodrigues, Mariza Marie Fujita e

Rossana Pulcineli Vieira FranciscoDepartamento de Obstetrıcia da FM-USP

Resumo

O acompanhamento do crescimento fetal alerta o obstetra paraa necessidade de cuidados assistenciais adequados. Atualmenteno Brasil, as curvas de crescimento das medidas biometricas deHadlock (1991) sao usadas como referencia. No entanto, estassao curvas baseadas na populacao americana, que apresenta ca-racterısticas diferentes da populacao brasileira. Ainda, as curvasde Hadlock sao funcoes apenas da idade gestacional e pode serinteressante considerar curvas de crescimento fetal para medi-das biometricas que, alem da idade gestacional, levem em contacaracterısticas maternas e da gestacao, ou seja, curvas persona-lizadas.

Foram observados 1445 exames ultrassonograficos em 434gestacoes unicas no perıodo gestacional de 12 a 42 semanascujo parto ocorreu entre 2014 e 2017 no hospital universitarioda Universidade de Sao Paulo (HU/USP), com pelo menos duasavaliacoes da mesma gestacao ao longo do pre natal.

No presente trabalho, construımos curvas de crescimento fe-tal por meio de modelos lineares mistos ao levar em conta a de-pendencia de exames de uma mesma gestacao. Consideramos asseguintes covariaveis: peso materno, altura materna, sexo fetale numero de partos anteriores. No processo de modelagem, 70%dos dados sao separados como amostra treinamento e 30% paratestar o modelo. Modelos lineares sem e com penalizacoes deLasso e de Ridge foram considerados. A escolha dos parametrosde penalizacao foi realizada por meio de validacao cruzada pelometodo de 10-fold. O modelo escolhido e aquele com menor raizdo erro quadratico medio (REQM) na amostra teste. Um aplica-tivo shiny foi elaborado para visualizacao das curvas para que

#meetingdata – P1

obstetras do Brasil possam calcular a curva esperada de umagestacao dada suas caracterısticas.

#meetingdata – P1

Adaptative significance levels in normalmean hypothesis testing

Alejandra Estefanıa Patino Hoyos e Victor FossaluzaIME-USP

Resumo

The Full Bayesian Significance Test (FBST) for precise hypotheseswas presented by Pereira and Stern [Entropy 1(4) (1999) 99-110]as a Bayesian alternative instaed of the traditional significancetest using p-value. The FBST is based on the evidence in favorof the null hypothesis (H0). An important practical issue for theimplementation of the FBST is the determination of how largethe evidence must be in order to decide for its rejection. In theClassical significance tests, it is known that p-value decreases assample size increases, so by setting a single significance level, itusually leads H0 rejection. In the FBST procedure, the evidencein favor of H0 exhibits the same behavior as the p-value whenthe sample size increases. This suggests that the cut-o� pointto define the rejection of H0 in the FBST should be a samplesize function. In this work, we focus on the case of two-sidednormal mean hypothesis testing and present a method to finda cut-o� value for the evidence in the FBST, by minimizing thelinear combination of the type I error probability and the expectedtype II error probability for a given sample size.

#meetingdata – P2

Performance analysis of deep neuralnetworks in piRNAs classification

Alisson Hayasi da Costa,Renato Augusto Correa dos Santos

e Ricardo CerriUFSCar

Resumo

Modern machine learning techniques, such as Deep Learning,have been successful in many complex Bioinformatics tasks. Thecapacity of Deep Neural Networks to handle large volumes of datahas made them essential tools for multiple areas of knowledge.However, developing the best model for a given task is a hardwork. Deep Neural Networks have a very large number of hy-perparameters, making them as powerful as complex to be ad-justed. Therefore, in order to better understand the behavior ofDeep Neural Networks when applied to biological data, we pre-sent in this paper a performance analysis of a Deep FeedforwardNetwork in piRNAs classification. Di�erent configurations of ac-tivation functions, initialization of weights, number of layers andlearning rate are experienced. The e�ects of di�erent hyperpara-meters are discussed and certain organizations are proposed forsimilar domains of data.

#meetingdata – P3

Recursos sonoros e linked open data:MusicBrainz

Amanda Azevedo dos Santos e Ana Carolina SimionatoUFSCar

Resumo

Diante da ascensao do uso e desenvolvimento das tecnologias dainformacao e comunicacao (TIC), producao e compartilhamentode informacoes e conteudos digitais tornou-se parte da rotina, emreflexo a esse novo comportamento, e difıcil definir e contabilizaro crescimento do volume informacional. Crescimento que pro-picia dificuldades para localizacao e acesso de diversos recursosinformacionais como imagens e musicas. A musica como arquivono formato MP3 apresenta dados denominado Identify a MP3(ID3), “Para representacao de musicas em formato MP3 existeo padrao ID3, que e um conjunto de metadados incorporado aoproprio arquivo de audio.”. (FERREIRA, 2015, p.13). Os meta-dados tambem podem ser assimilados como descritores ou atri-butos, que podem enriquecer, identificar e auxiliar na interacaoentre dados e softwares. (POLLOK, 2011). Frente ao desenvol-vimento de estudos sobre internet, o pesquisador Tim Berners-Lee criou um ambiente que usava uma rede de comunicacao,popularmente conhecida como internet que viabiliza o comparti-lhamento de arquivos, textos, audios, imagens e vıdeos ambienteque foi nomeado como Wide Word Web ou WWW. (BERNERS-LEE,1989). Assim, por meio do estudo e desenvolvimento dessas tec-nologias, surge o Linked Data, no Linked Open Data e possıvellocalizar datasets relacionados ao contexto musical, e analisar omodo como esse recurso e oferecido aos usuarios, assim como,quais ferramentas, metadados utilizados para aperfeicoar a re-cuperacao deste conteudo. Um dataset sobre musica e o Music-Brainz MusicBrainz e um projeto que fornece dados como identi-ficadores unicos e especıficos no contexto musical, como artistasde musica, albuns e as musicas, com o uso de URIs relaciona-dos com musica, o MusicBrainz tambem desenvolve produtos.

#meetingdata – P4

Seu banco de dados denominado MusicBrainz Database e estru-turado pelo PostgreSQL e contem os metadados das musicas equanto aos metadados utilizados eles segundo Metabrainz (2017,nao paginado, traducao nossa): Artista: Nome, nome de clas-sificacao, apelido, tipo, datas de inıcio e termino, comentariode desambiguacao; Grupos de liberacao: Tıtulo, credito do ar-tista, tipo, comentario de desambiguacao; Lancamentos: Tıtu-lo, credito do artista, tipo, status, idioma, data, paıs, rotulo,numero de catalogo, codigo de barras, meio (s), ID (s) de disco,comentario de desambiguacao; Suporte: Formato, lista de fai-xas (tıtulo, credito do artista, duracao) Gravacao: Tıtulo, creditodo artista, duracao, relacionamentos, comentario de desambi-guacao; Trabalho: Tıtulo, relacoes, comentario de desambigua-cao; Etiquetas: Nome, nome de classificacao, apelido, paıs, tipo,codigo, datas de inıcio e termino, comentario de desambiguacao;Relacoes e URLs: Os relacionamentos sao uma maneira de vin-cular as entidades acima e permitir que o MusicBrainz capturea maioria dos dados contidos nas notas de linha de um CD. CDStubs: Tıtulo, artista, codigo de barras, ID do disco, comentariode desambiguacao.

#meetingdata – P4

Dados abertos: criacao de novos negociosAulida Berenice Moretti dos Santos e

Ana Rita Tiradentes Terra ArgoudFATEC

Resumo

Com o avanco nas tecnologias de informacao e comunicacao criou-se um novo cenario no uso e compartilhamento de dados, como advento da Internet foi possıvel considerar polıticas de acessoaberto as publicacoes cientıficas. Atualmente, visando a trans-parencia e colaboracao sob diversos aspectos, cada vez mais oconceito de dados abertos vem sendo abordado, sendo tendenciaque haja essa abertura em dados governamentais e dados ci-entıficos. Os dados abertos, conhecido tambem como o movi-mento Open Data, surgiu com o intuito de oferecer transparenciana divulgacao dos dados e sua possıvel reutilizacao. A Open Kno-wledge International e uma importante fundacao sem fins lucra-tivos que visa incentivar o uso dos dados abertos na sociedade, edefine que: “Dados abertos sao dados que podem ser livrementeusados, reutilizados e redistribuıdos por qualquer pessoa - sujei-tos, no maximo, a exigencia de atribuicao da fonte e compartilha-mento pelas mesmas regras.” (OPEN KNOWLEDGE INTERNATI-ONAL, s.d.). Os dados abertos tem influencia na construcao denovas informacoes por meio de sua reutilizacao, trazendo a opor-tunidade de investimento tanto de instituicoes ou organizacoesque pretendem transforma-los em um conhecimento que tragabenefıcios para a sociedade. A Open Knowledge Brasil desen-volve e possui parceria em alguns projetos nesse sentido, comoo “Indice de Dados Abertos”, “Gastos Abertos”, “Vai Mudar”, etc.Assim Santarem Segundo (2015) afirma que as instituicoes noambito publico ou privado vem investindo na organizacao de a-cesso a informacao, pois consideram um bom diferencial no quetange tomada de decisao em diversas instancias. Com a polıticade Dados Governamentais Abertos (DGA) criado em 2009 pelo

#meetingdata – P5

entao presidente dos Estados Unidos Barak Obama, essa polıticadisponibiliza dados governamentais de domınio publico para a li-vre utilizacao dos cidadaos. Grandes numeros de pesquisadorese empresa tem buscado mais informacoes sobre DGA, alem decompreender seus atributos e caracterısticas ligados ao DGA. Aabertura da base de dados do governo vai alem da transparenciae combate a corrupcao que ja se justifica, ela tambem e um meiode incentivo ao uso desses dados abertos para a criacao de fer-ramentas e aplicativos, alem de novas empresas ou as ja exis-tentes utilizam esses dados em seus servicos e produtos criandonovos modelos de negocios. Dentro do contexto de servicos vol-tados para a populacao que fazem uso do DGA, tem se o “Cade oonibus?” (NANO, 2012) trata-se de um aplicativo para smartpho-nes que utiliza as informacoes de linhas, rotas, horarios de saıdae chegada do site da SPTrans, que e uma empresa publica detransporte no municıpio de Sao Paulo.

#meetingdata – P5

Feature extraction for multi-target learningBrendon Gouveia Cambuı

UFSCar

Resumo

Multi-target learning is a generalization of the recently-populari-zed task of multi-label classification, where each data instanceis associated with multiple target-variables simultaneously. Themain challenges in this research field are related to the highdimensionality of data present in datasets with such characte-ristics, and also the high number of target-variables having de-pendencies among them. In such scenarios, it is crucial to ex-tract lower-dimensional representations from the original input-space, such that these can be provided as input to other multi-target predictors. In this research, are proposed the use of Auto-Encoders and Restricted Boltzmann Machines as feature extrac-tors in some of multi-target datasets publicly available. Resultswill be evaluated considering state-of-the-art multi-target predic-tion methods and evaluation measures in the literature.

#meetingdata – P6

Predicting protein functions via interactionprediction

Bruna Zamith Santos, Ricardo Cerri e Celine VensUFSCar

Resumo

Proteins are macro-molecules responsible for virtually every tasknecessary for the maintenance of cells, having a fundamentalrole in the behavior and regulation of organisms. Advances in thearea of Molecular Biology have allowed an almost complete listingof the proteins that make up the organisms. However, there area large number of proteins whose function is still unknown, ope-ning space for a new research focus in Molecular Biology. Usually,protein function prediction is performed using homology-basedBioinformatic tools, comparing a sequence with a database withmany sequences belonging to previously known functions. Thisis a limited strategy, since it ignores the sequences’ biochemicalproperties, and also the hierarchical relationships that may existbetween the di�erent classes. In the literature, the use of Ma-chine Learning for the protein function prediction has shown tobe promising, obtaining significant advances regarding the use ofhomology and other methods. Making use of Machine Learning,it is possible to model the protein function prediction problem asa Hierarchical Multi-label Classification (HMC) problem, due tothe fact that protein functions are hierarchically organized andthat they can occur simultaneously. Among several HMC algo-rithms known in the literature, some of them have treated HMCtasks considering interaction data. Interaction data are charac-terized by two sets of objects, each described by their own setof features, which makes it possible to predict the interactionsbetween two instances. They are often represented as a networkof relationships. Such algorithms assign a function to a pro-tein based on the functional labels of its interacting neighbours.However, none of these methods model the HMC problem as an

#meetingdata – P7

interaction data problem. This project proposes modeling theprotein function prediction task as a HMC problem through inte-raction data. Thereby, a new method for HMC of protein functi-ons, which makes use of interaction prediction, is developed andstudied.

#meetingdata – P7

Comparacao de testes de hipoteses paraduas medias em variaveis do tipo proporcao

Camila Lorencetti Brolo eGustavo Henrique de Araujo Pereira

UFSCar

Resumo

O estudo de taxas e proporcoes e muito comum em diversas areasdo conhecimento. Elas assumem valores no intervalo (0;1) e saodenominadas variaveis do tipo proporcao. Quando o interessee comparar a media de uma variavel em dois grupos diferen-tes, e comum a utilizacao de testes de hipoteses. Neste traba-lho, comparamos a performance de tres testes de hipoteses paracomparacao de duas medias em variaveis do tipo proporcao coma suposicao de que a distribuicao da variavel resposta e Beta.Um dos testes e o mais tradicional e os outros sao baseados embootstrap. Em cada um dos cenarios considerados, atraves desimulacao de Monte Carlo, obtemos para cada metodo estimati-vas do tamanho e do poder do teste para a comparacao de duasmedias e por fim, aplicamos a dados reais. Dentre os resulta-dos obtidos, salientamos a boa performance do metodo boots-trap 1 para o erro do tipo I, quando temos valores iguais nasduas populacoes do parametro de precisao. Entretanto, para va-lores diferentes do parametro de precisao, o metodo bootstrap 2e o que melhor se comporta. Para o poder do teste, salientamostambem a boa performance do teste de hipotese bootstrap 1 nagrande maioria dos cenarios.

#meetingdata – P8

Redes Bayesianas: uma comparacao entremetodos de estimacao de estrutura

Camila Sgarioni Ozelame – UFSCar,Anderson Ara – UFBA,

Francisco Louzada Neto – ICMC-USP,Marcos Jardel Henriques – USP/UFSCar e

Oilson Alberto Gonzatto Junior – USP/UFSCar

Resumo

A tecnica de Redes Bayesianas baseia-se na representacao dadistribuicao conjunta de um grupo de variaveis aleatorias atravesde um grafo acıclico direcionado (DAG - Directed Acyclic Graph),sendo tais variaveis representadas por nos da rede e a depen-dencia condicional sendo representada por arcos. Deste modo,a tarefa de modelagem das conexoes entre as variaveis pode re-duzir a dimensionalidade do banco de dados e permitir melhorinterpretacao das variaveis envolvidas.

Neste trabalho, comparamos a estimacao da estrutura das re-des utilizando os algoritmos classicos K2 e PC. O primeiro consi-dera, inicialmente, a independencia entre os nos e a cada passoadiciona a relacao mais provavel entre as variaveis, otimizandoum escore especıfico de qualidade de ajuste, o qual avalia a redecomo uma funcao dos dados. O segundo, considera testes es-tatısticos baseado em metrica de informacao mutua condicionale de criterio de d-separacao para orientar os arcos. Neste con-texto, a metodologia implementada considera variaveis aleatoriascategoricas e uma variavel resposta, sendo entao redes de clas-sificacao.

Os metodos sao comparados por meio de dados artificiais coma estrutura conhecida, bem como de dados reais relativos a fa-lhas na plantacao de cana de acucar, neste ultimo a problematicada empresa gira em torno da dificuldade de diminuir as falhasnos talhoes de cana plantados em suas terras. Para quantificara qualidade do das estruturas propostas sao utilizadas as medi-das de AIC e BIC, alem disso de quatro medidas de performance

#meetingdata – P9

de desempenho: sensibilidade, especificidade, acuracia e o coe-ficiente de correlacao de Matthews.”

#meetingdata – P9

Momentos de vida: mineracao de textos eBig Data para oferecimento de servicos

personalizadosDhiogo Jose Correa de Sa, Thiago de Paulo Faleiros, Priscilla de

Abreu LopesRicardo B. Scheicher e Eduardo F. Velludo PradoItera - Inovacao e Desenvolvimento Tecnologico

Resumo

Em 2016 a Itera foi selecionada para participar do programa Ino-vaBra do Bradesco. O desafio proposto era o oferecimento deservicos personalizados, maximizando a conversao de vendas eengajamento com os clientes. Foi disponibilizado um conjunto dedados com 1Mi de transacoes bancarias de clientes, com dadoscomo identificacao do cliente, data e valor da transacao e textode segunda linha (texto curto que descreve a transacao). Com oauxılio de especialistas, foram definidas 32 categorias de gastos,sendo 26 gerais (”veıculo”, ”mercado”) e 6 para produtos finan-ceiros (”seguro”, ”cartao”), utilizadas para rotulacao manual de32 mil transacoes (1.000 por categoria). A geracao da solucaofoi realizada em 5 iteracoes do processo: pre-processamento dotexto de segunda linha, geracao de modelo de classificacao utili-zando a tecnica semissupervisionada Transductive Classificationbased on Bipartite Heterogeneus Network (TCBHN), classificacaoautomatica de 450Mi de transacoes utilizando tecnologia de pro-cessamento distribuıdo e validacao de amostra classificada pelosespecialistas, sendo que erros encontrados eram utilizados pararetreinamento do modelo. Apos validacao final do modelo, foi re-alizada a segmentacao de transacoes, definindo 10 quantis paracada categoria de transacao, baseados no valor gasto. Foi rea-lizada a recategorizacao de transacoes, incluindo a informacaode quantis, e.g. ”mercadoQ5”, ”seguroQ7”. Para cada cliente,foram montadas sacolas de compras mensais, documentos com-postos pelas categorias das transacoes efetuadas no mes de re-

#meetingdata – P10

ferencia concatenadas. Os documentos gerados foram agrupa-dos e topicos foram extraıdos dos grupos utilizando a tecnicaLatent Dirichlet Allocation (LDA), executada utilizando processa-mento distribuıdo. A analise dos topicos e de clientes especıficosproporcionou a identificacao de Momentos de Vida (reforma decasa, viagem) que foi utilizada pelo banco para oferecimento deservicos personalizados a seus clientes.

Obtencao de curvas de confiabilidade emtestes de vida acelerados

Diogo Barboza Moreira e Teresa Cristina Martins DiasUFSCar

Resumo

Na area de confiabilidade em Estatıstica, um dos interesses estaem estimar os parametros envolvidos no modelo que descreve ocomportamento de falha e a funcao de confiabilidade dos produ-tos. Consideramos um experimento que envolve a aplicacao detestes de vida acelerados, com a finalidade de modelar o com-portamento de falha, utilizando unidades amostrais. Tais uni-dades sao submetidas a condicoes de funcionamento nao usu-ais, atraves do aumento dos nıveis de variaveis que influenciamno tempo ate a ocorrencia do evento. Sao exemplos de variaveisde estresse: temperatura, voltagem e corrosao. Assumimos osmodelos exponencial ou Weibull para os tempos e a relacao davariavel de estresse com o tempo de vida dada pelos modelos delei de potencia ou Arrhenius, sob o esquema de censura a direita,do tipo II. Neste trabalho apresentamos estimativas para a funcaode confiabilidade, sob diversos nıveis de estresse, nos cenarioscitados. Os estimadores foram obtidos via metodo da maximaverossimilhanca e implementados em um programa, criado nosoftware R, que retorna as estimativas e as curvas de confiabili-dade para tempos simulados e conjuntos de dados reais.

Proposta de um modelo de aprendizadocompetitivo para classificacao hierarquica

multirrotuloElaine Cecılia Gatto – Faculdade Anhanguera de

Bauru/UFSCar eRicardo Cerri – UFSCar

Resumo

A Classificacao Hierarquica Multirrotulo (CHM) e um problemadesafiador da area de Aprendizado de Maquina (AM), sendo con-siderada uma tarefa complexa dentro da Classificacao de Dados,possuindo aplicacoes em areas como Bioinformatica, classifica-cao de textos e imagens. Um problema de CHM pode ser formali-zado como possuindo um espaco de exemplos X; um conjunto declasses C; uma ordem parcial que representa o relacionamentosuperclasse h; sendo que 8c1, c2 2 C : c1 hc2 () c1 uma su-perclasse de c2; uma hierarquia de Classes (C, h), um conjuntode tuplas (x

) sendo x

2 X, Ci

✓ C |c 2 C

�! c

0 hc : c0 2 C

;um criterio de qualidade q que recompensa modelos com alto de-sempenho preditivo e baixa complexidade, e por fim, uma funcaof : X �! 2C; sendo 2C o conjunto de potencia de C, |c 2 f (x) �!8c0 hc : c0 2 f (x) e f otimiza q. As classes em um problema deCHM podem ser organizadas como uma Arvore ou como um GrafoAcıclico Direcionado. Dada essa taxonomia, os algoritmos deAM devem rotular objetos como pertencentes a multiplos cami-nhos simultaneamente. Abordagens Competitivas, que aplicamaprendizado nao supervisionado, tem sido recentemente aplica-das para resolucao de problemas envolvendo CHM, porem, aindaha poucos trabalhos que relatam solucoes aplicando AbordagensCompetitivas Hıbridas, mesclando aprendizado supervisionadoe nao-supervisionado. Portanto, este projeto de pesquisa temcomo objetivo investigar como o aprendizado competitivo, usandoredes neurais artificiais, pode colaborar para tarefas de CHM.Abordagens nao supervisionadas podem ser interessantes dado

que, quanto mais profunda uma classe na hierarquia, menosexemplos positivos ela possui, dificultando o aprendizado super-visionado.

Estimadores, pontual e intervalar, paradados com censuras intervalar

Estela Maris Pereira Bereta e Teresa Cristina Martins DiasUFSCar

Resumo

Dados com censura intervalar ocorrem com frequencia em es-tudos de diversas areas, em situacoes em que o evento de inte-resse e observado com periodicidade. Neste caso, o tempo exatoda ocorrencia nao e conhecido (observado), porem sabe-se que oevento ocorreu dentro de um intervalo (conhecido) de tempo. Estetipo de observacao e tratada em analise de sobrevivencia usandotecnicas apropriadas que considera censura intervalar. Pradhane Kundu (2014) apresentam varios metodos de estimacao pon-tual (algoritmo EM, aproximacao de Lindley e importance sam-

pling) no caso de tempos censurados de forma intervalar, comdistribuicao exponencial e Weibull. Tambem, os autores apresen-tam um algoritmo para a construcao de intervalos de confianca,na abordagem Bayesiana. Sob a abordagem Bayesiana, obtemosestimativas pontuais e, para as estimativas intervalares apresen-tamos uma alternativa ao metodo proposto por Pradhan e Kundu(2014). Para ilustrar a teoria, simulamos dados para diferen-tes tamanhos amostrais, considerando tempos com distribuicaoWeibull.

Haphazard intentional sampling techniquesin network design of monitoring stations

Julio M. SternIME-USP

Resumo

In contemporary empirical science, sampling randomization isthe the golden standard to ensure unbiased, impartial, or fair re-sults, see Pearl (2000) and Stern (2008). Randomization worksas a firewall, a technological barrier designed to prevent spuri-ous communication of vested interests or illegitimate interferencebetween parties in the application of interest, that may be a sci-entific experiment, a legal case, an auditing process, or manyother practical applications. In randomized experiments, a com-mon issue is avoid random allocations yielding groups that dif-fer meaningfully with respect to relevant covariates. This is acritical issue, as the chance of at least one covariate showing a”significant di�erence”between two treatment groups increasesexponentially with the number of covariates. Haphazard Intenti-onal Sampling is a statistical technique developed with the spe-cific purpose of yielding sampling techniques that, on one hand,have all the benefits of standard randomization and, on the otherhand, avoid exponentially large (and costly) sample sizes. Thisapproach, proposed at Lauretto et al (2012) and Fossaluza et al(2015), combines intentional sampling using goal optimizationtechniques with random perturbations that induce good decou-pling properties. On one hand, this method has a computati-onal cost that is cubic with the number of covariates. On theother hand, this method yields experimental designs that avoidexponentially large sample sizes, allowing great economical bene-fits that, nevertheless, do not compromise the statistical integrityof the experiment or auditing process. In this article, we applythe aforementioned Haphazard Intentional Sampling as a statis-tical technique to study how to rationally re-engineer networks

of measurement stations for atmospheric pollution and/or gasemissions. We show how such re-engineering or re-design cansubstantially decrease the operation cost of monitoring networkswhile providing, at the same time, support for arriving at conclu-sions or taking decisions with the same statistical power as inconventional setups.

Random Bernstein polynomials – anonparametric bayesian estimation of

densities via ABCLeandro Augusto Ferreira – IME-USP/Sharecare e

Victor Fossaluza – IME-USP

Resumo

In recent years, many statistical inference problems have beensolved by using Markov Chain Monte Carlo (MCMC) techniques.However, it is necessary to derivate the analytical form for thelikelihood function. Although the level of computing has increa-sed steadily, there is a limitation caused by the di�culty or themisunderstanding of how computing the likelihood function. TheApproximate Bayesian Computation (ABC) method dispenses theuse of the likelihood function by simulating candidates of poste-rior distributions and using an algorithm to accept or reject theproposed candidates. This work presents an alternative nonpa-rametric estimation method of smoothing empirical distributionswith random Bernstein polynomials via ABC method. The Berns-tein prior is obtained by rewriting the Bernstein polynomial interms of k mixtures of beta densities and mixing weights. Someexamples are used to illustrate the method proposed.

Semi-supervised predictive clustering treefor protein subcellular localization

Leonardo Utida Alcantara – UFSCar,Ricardo Cerri – UFSCar e

Isaac Triguero Velazquez – University of Nottingham

Resumo

The prediction of protein subcellular localization is a really im-portant classification task, because the location of proteins in-side a cell is directly related to these protein’s functions. Thereare many proteins that reside at the same time in two or morelocations within a cell or move between multiple locations, be-cause of this we need to attack this problem using multi-labelclassification (MLC) algorithms. The supervised MLC approachis well-established in the literature; however, it presents somedisadvantages such as: (i) the need for a large amount of label-led instances to train the classifier; (ii) this approach ignores thefact that unlabelled instances can provide valuable informationfor the classification; and (iii) there are a lot of areas, includingbioinformatics, in which unlabelled data is abundant but manu-ally labelling an instance is too expensive and time-consuming.Semi-Supervised Learning (SSL) is a subfield of machine lear-ning, in which the learner tries to exploit both labelled and unla-belled data at the same time to improve the accuracy of the lear-ning algorithm. The main goal of this project was to investigatehow to use SSL to improve the classification in MLC datasets, fo-cusing on the protein subcellular localization prediction problem.In order to do this, we proposed a new SSL algorithm based onthe predictive clustering tree framework, that is capable of cons-tructing a decision tree using the information from both labelledand unlabelled instances to decide the best attribute to split thedata at each node. We tested our new approach in many SSLscenarios for inductive and transductive learning, evaluating theaccuracy of our classifier in many multi-label datasets (MLDs),

3 proteins datasets (from virus, plants and fungus) and 4 well-known multi-label datasets. The results showed that our methodcould improve the classification in the SSL scenarios for most ofthe MLDs, proving that our method is able to exploit labelled andunlabelled data.

Implementacao de Inferencia Bayesiana naoParametrica para Processos Pontuais

EspaciaisLucas Eduardo de Moraes e Danilo Lourenco Lopes

UFSCar

Resumo

Padroes pontuais espaciais sao dados coletados na forma de pon-tos, distribuıdos dentro de uma regiao do espaco surgem em di-versas situacoes, como na biologia, epidemiologia ou criminolo-gia. Neste tipo de dados, as localizacoes sao chamadas de even-tos, e tanto a quantidade quanto as localizacoes desses eventossao aleatorias. Padroes pontuais podem apresentar comporta-mentos como: agrupamento, inibicao, regularidade ou nao apre-sentar nenhuma estrutura especıfica. Um dos objetivos princi-pais da analise de dados deste tipo e entender e descrever taispadroes pontuais. Neste trabalho apresentamos uma base paraentender o que caracteriza um processo pontual, modelos quebuscam descrever da melhor forma possıvel padroes observadose apresentar metodos de estimacao de caracterısticas de inte-resse, como a funcao de intensidade, utilizando tecnicas de in-ferencia Bayesiana nao parametrica.

Alocacao intencional fortuita: um estudo decaso em avaliacao de software

Marcelo de Souza Lauretto – EACH-USP,Higor A. de Souza – IME-USP eMarcos L. Chaim – EACH-USP

Resumo

Metodos de alocacao intencional sao procedimentos nao proba-bilısticos de selecao e alocacao de indivıduos, com o objetivo deatingir criterios de representatividade e balanceamento. Tal abor-dagem e indicada para pesquisas exploratorias ou estudos-pilotonos quais a raridade de indivıduos, restricoes eticas ou de custolimitam severamente os tamanhos das amostras e impedem aadocao da amostragem aleatoria tradicional. Em trabalhos ante-riores, apresentamos a alocac˜ao intencional fortuita, um metodode alocacao baseado no balanceamento otimo de covariaveis deinteresse, combinado com perturbacoes aleatorias. Neste traba-lho, estendemos a abordagem de alocacao fortuita e apresenta-mos um estudo de caso em avaliacao de software. Experimentosnumericos mostram que a alocacao fortuita prove grupos expe-rimentais bem balanceados, mesmo na presenca de um baixonumero de participantes.

Using Markov Chain in Data ScienceMarcio Luis Lanfredi Viola – UFSCar,

Jesus E. Garcıa – UNICAMP eVeronica A. Gonzalez-Lopez – UNICAMP

Resumo

In this work we show the possibility of using the Markov chainas a tools for data analysis, particularly, in data science. More-over, we show an example that involves statistical classificationof languages according to their rhythmic features, using speechsamples. The data set consists of sentences belonging to eightlanguages, Catalan, Dutch, English, French, Italian, Japanese,Polish and Spanish. This is an important open problem in phono-logy. The linguistic conjecture is that this languages are dividedinto three classes according to their rhythmic properties: stress-timed, syllable-timed or mora-timed. A persistent di�culty onthis issue is that the speech samples correspond to several sen-tences produced by diverse speakers, corresponding to a mixtureof distributions. The usual procedure to deal with this problemhas been to choose a subset of the complete sample which seemsto best represent each language. The dataset used for this analy-sis are recordings of various speakers, who read the phrases intoa microphone. To classify the languages, firstly we will fit a modelfor each language, using our robust procedure and then, we usethe relative entropy between the models (for each language) as adistance for the clustering of the languages.

Uma abordagem distribuıda para sistemasfuzzy evolutivos multiobjetivos em

problemas de Big DataMaykon Rocha Santana

UFSCar

Resumo

Abordagens tem sido aplicadas para a geracao automatica deSistemas Fuzzy a partir de conjunto de dados e com o uso detecnicas como Algoritmos Geneticos, Redes Neurais, dentre ou-tras. Nesse cenario, questoes relacionadas a dimensionalidade, aprecisao e a complexidade dos sistemas obtidos tem sido campode estudo em diversos trabalhos. Os pesquisadores do Labo-ratorio CIG (Computational Intelligence Group) do Departamentode Computacao da Universidade Federal de Sao Carlos (UFSCar)- Sao Paulo - Brasil tem desenvolvido trabalhos voltados para,a partir de conjuntos de dados, realizar a extracao das Basesde Regras necessarias para a geracao dos chamados SistemasFuzzy Baseados em Regras (SFBR). Em geral, sao usados nessestrabalhos os Algoritmos Geneticos Multiobjetivos, em especial oNSGA-II, para tratar as questoes referente ao balanceamento en-tre a interpretabilidade e a precisao dos conjuntos de regras quefazem parte dos Sistemas Fuzzy construıdos. Todavia, quandose considera contextos em que os dados tem grande dimensio-nalidade, como em problemas de Big Data, a geracao dos SFBRincorre em processamentos bastante custosos. Tendo isso emvista, e proposto o desenvolvimento de uma abordagem que via-bilize escalabilidade quando do uso da computacao paralela nageracao de Sistemas Fuzzy com maximizacao da precisao (maioracuracia) e minimizacao da complexidade (menor numero de re-gras e antecedentes das regras) em contextos de problemas deBig Data. O framework de computacao paralela Apache Sparksera usado para explorar as caracterısticas de paralelismo exis-tentes nos problemas de geracao de SFBR. A eficacia da aborda-gem sera averiguada por intermedio de experimentos realizados

em conjuntos de dados que envolvam dados de grande dimensi-onalidade no que diz respeito as precisoes, complexidades, con-vergencias e escalabilidades dos sistemas obtidos.

Analise estatıstica do desempenho do PTnas eleicoes proporcionais entre 2000 e

2016, e previsoes para 2018Pedro Luiz Paolino Chaim e Marcio Poletti Laurini

FEARP-USP

Resumo

Neste artigo realizamos uma analise estatıstica do desempenhodo PT (Partido dos Trabalhadores) nas eleicoes proporcionais bra-sileiras de 2000 a 2016. Entao, utilizando um modelo dinamicode regressao Beta, aumentado com um componente de efeitosaleatorios correlacionado no espaco e no tempo, apresentamosprevisoes para a proporcao de votos validos recebidos pelo PTpara deputado estadual e deputado federal nas eleicoes de 2018.Nossos resultados apontam para a relevancia de se considerara elementos geograficos na caracterizacao do comportamento doeleitor brasileiro. Previsoes sugerem piora consideravel no de-sempenho do PT nas eleicoes de 2018, quando comparado a 2014.

Mineracao de regras de associacaotemporais envolvendo dados quantitativos

contınuosRafael Sto�alette Joao, Laıs Vilioni e Silva, Marcela X. Ribeiro

UFSCar

Resumo

O crescente volume de dados gerados constantemente demandade tecnicas cada vez mais eficientes para a aquisicao de informa-coes uteis. O presente estudo objetiva a definicao e construcaode um novo metodo para refinar o processo de mineracao de re-gras de associacao ao incorporar o aspecto temporal de formaexplıcita, associado a dados quantitativos contınuos. Cada pontotemporal em que uma caracterıstica (atributo) assume um valorde interesse dependente da distribuicao de probabilidade que arepresenta. Os pontos temporais sao, entao, componentes deum intervalo de interesse da caracterıstica. As relacoes tempo-rais entre os intervalos de interesse das caracterısticas sao ma-peadas por meio do uso da Algebra Intervalar de Allen. Padroespodem ser identificados e regras de associacao construıdas noconjunto resultante de relacoes temporais de interesse. Ate opresente momento, os experimentos resultaram regras estrutu-ralmente semelhantes aquelas geradas pela mineracao de regrasde associacao tradicional. Entretanto, as regras sao diretamenterelacionadas aos intervalos temporais associados aos dados. Oque evidencia que a tecnica e capaz de gerar regras de associacaocom uma nova semantica que expressa quais as relacoes entrea duracao e ocorrencia eventos importantes presentes na basede dados. Ao mesmo passo em que e capaz de lidar com da-dos quantitativos contınuos sem a necessidade da tarefa de dis-cretizar os dados. Em termos de eficiencia computacional, anova estrategia nao implicou em acrescimos consideraveis parao tempo de execucao do processo de mineracao de regras deassociacao. Esta nova estrategia tem o potencial de refinar o

processo de mineracao de regras de associacao em dados quan-titativos contınuos, pois incorpora o aspecto da temporalidade,que resulta em regras diferentes (com novas informacoes) daque-las geradas pelo emprego da estrategia tradicional.

Aplicacao de aprendizado ativo na tarefa declassificacao de textos em fluxo de dados

Suzane Carol de Lima e Heloisa de Arruda CamargoUFSCar

Resumo

A mineracao de dados em fluxo tem como objetivo incorporara informacao do fluxo de dados em evolucao ao modelo, semter que reaprender o modelo do zero em um processo dinamicoque deve encapsular a coleta de dados, a aprendizagem e a fasede validacao em um unico ciclo contınuo. Uma das tecnicasde mineracao de dados e a classificacao e um dos desafios daclassificacao em fluxo de dados e obter todos os dados rotuladospara realizar o treinamento do modelo. Uma das recentes abor-dagens utilizadas para solucionar esse problema e a utilizacaodo aprendizado ativo. O aprendizado ativo visa amenizar o pro-cesso de rotulagem dos dados atraves dos mecanismos de con-sultas de dados nao rotulados. Dessa maneira, e possıvel redu-zir a quantidade de dados rotulados necessarios para o treina-mento do modelo. Este projeto objetiva desenvolver metodos declassificacao de texto com o aprendizado ativo que se adapte asmudancas da distribuicao dos dados. Os metodos devem man-ter um desempenho constante e alta precisao ao longo do tempo.Os metodos desenvolvidos incluem estrategias capazes de reali-zar a identificacao e selecao dos dados mais informativos que seadapte as mudancas que possam ocorrer ao longo do fluxo e autilizacao de um oraculo artificial que seja capaz de atribuir osrotulos dos dados selecionados sem a intervencao humana, tra-zendo uma contribuicao adicional as estrategias de consultas deaprendizado ativo em fluxo de dados existentes.

O modelo de copula de Frank para dados desobrevivencia bivariados: modelagem,

estimacao Bayesiana e pontos influentesTaıs Roberta Ribeiro - USP/UFSCar e

Adriano K. Suzuki - ICMC-USP

Resumo

Nos dias de hoje esta cada vez mais comum nos depararmos comsituacoes em que a suposicao de independencia entre os tem-pos de sobrevivencia pode nao ser valida. Sendo assim, essasprovaveis associacoes entre os tempos de sobrevivencia sao fre-quentemente modeladas por meio de modelos de fragilidade. Noentanto, uma outra alternativa que vem sendo cada vez mais de-senvolvida ultimamente para modelar a dependencia entre da-dos multivariados, e o uso dos modelos de copulas. Neste tra-balho propomos o modelo de copula de Frank para modelar adependencia de dados bivariados de sobrevivencia na presencade covariaveis e observacoes censuradas. Para fins inferenciais,realizamos uma abordagem bayesiana usando metodos MonteCarlo em Cadeias de Markov (MCMC). Algumas discussoes so-bre os criterios de selecao de modelos foram apresentadas. Como objetivo de detectar observacoes influentes utilizamos o metodobayesiano de analise de influencia de delecao de casos baseadona divergencia. Por fim, mostramos a aplicabilidade dos modelospropostos a conjuntos de dados simulados e reais.

Proposta de geracao de regras declassificacao multirrotulo simultaneamente

eficazes e interpretaveis via otimizacaomultiobjetivo com algoritmos geneticos

Thiago Zafalon Miranda e Ricardo CerriUFSCar

Resumo

O recente aumento do interesse por modelos de classificacao in-terpretaveis e, em parte, consequencia de regulamentos como oGeneral Data Protection Regulation, que asseguram, entre ou-tros, o direito a explicacao a sujeitos afetados negativamente porsistemas de tomada de decisao automatica. Neste trabalho, pre-tende-se apresentar ao que, especificamente, diferentes autoresse referem quando utilizam o termo interpretabilidade, que co-mumente e utilizado para descrever diferentes propriedades deum modelo. Visando a geracao de modelos de classificacao quetem simultaneamente grande poder preditivo e elevada interpre-tabilidade, algoritmos geneticos multiobjetivo serao utilizados pa-ra gerar conjuntos de regras de classificacao multirrotulo. Nestetipo de classificacao, diferentemente da tradicional (monorrotulo),as classes a cujos objetos podem pertencer nao sao mutuamenteexclusivas, ou seja, alguns objetos podem pertencer a multiplasclasses simultaneamente. As regras de classificacao serao evo-luıdas de acordo com a abordagem de Pittsburg, ou seja, cadaindivıduo da populacao representara um conjunto de regras (umclassificador multirrotulo). Essa abordagem possibilita, a cadaiteracao do algoritmo, a identificacao de uma aproximacao doConjunto Otimo de Pareto. Resultados preliminares indicam queestrategias simples, como ordenacao lexicografica dos objetivos,nao produzem consistentemente resultados satisfatorios; ora assolucoes geradas sao pouco diversas, ora sao pouco interpretaveis.

Agnostic tests can control the type I andtype II errors simultaneouslyVictor Azevedo Coscrato – USP/UFSCar,

Rafael Izbicki – UFSCar eRafael Bassi Stern – UFSCar

Resumo

Despite its common practice, statistical hypothesis testing pre-sents challenges in interpretation. For instance, in the standardfrequentist framework there is no control of the type II error. As aresult, the non-rejection of the null hypothesis (H0) cannot rea-sonably be interpreted as its acceptance. We propose that this di-lemma can be overcome by using agnostic hypothesis tests, sincethey can control the type I and II errors simultaneously. In orderto make this idea operational, we show how to obtain agnostic hy-pothesis in typical models. For instance, we show how to build(unbiased) uniformly most powerful agnostic tests and how to ob-tain agnostic tests from standard p-values. Also, we present con-ditions such that the above tests can be made logically coherent.Finally, we present examples of consistent agnostic hypothesistests.

Livro de Programa, Resumos e Anotações · tat´ıstica, classificaç ao, mineraç˜ ao de...

Documents

Transcript of Livro de Programa, Resumos e Anotações · tat´ıstica, classificaç ao, mineraç˜ ao de...

Análise de Logs de Interação em Ambiente Educacional ...€¦ · Ambiente Educacional Corporativo via Minerac¸ao de Dados Educacionais. Dissertac¸˜ ao de˜ Mestrado em Engenharia

Intelig Emocional Lider

Conceitos atuais sobre equilíbrio sagital e classiﬁcac¸ão ... · placa terminal sacral (o-a) e uma linha perpendicular ao centro da placa terminal sacral (a). A placa terminal

Análise Complexa - Faculdade de Ciências Exatas e … · 4.2 Séries de potências e teorema de Taylor . . . . . . . . . . . . 90 4.3 Séries de Laurent e Classificação

O QUE INTELIG NCIA ARTIFICIAL - UFSC

Classificaçao de cobertura da terra utilizando dados ... · em um ru´ıdo multiplicativo conhecido como speckle. O speckle propicia a formação de areas´ claras e escuras

REVISTA BRASILEIRA DE ANESTESIOLOGIA Publicação Oficial … · vocais (E-CV) com a classificação CL. Por outro lado, uma correlação positiva entre o espaço pré-epiglótico

Vanessa Rodrigues Coelho Leite Uma analise da classificac ...webserver2.tecgraf.puc-rio.br/~mgattass/teses/2012Dissertacao... · Vanessa Rodrigues Coelho Leite Uma analise da classificaç´

Inteligência Ecológicaespacoviverzen.com.br/wp-content/uploads/2017/06/Intelig... · 2018. 1. 30. · Title: Inteligência Ecológica Author: Daniel Goleman Created Date: 5/25/2014

Flávio G F Camacho Vipnet Baixada Telecomunicações e …mum.mikrotik.com/presentations/BR09/ospf.pdf · 2012-08-13 · Link de dados e voz. Embratel, Intelig, Telefônica, OI.

ALTA TECNOLOGIA PARA INFRAESTRUTURA E …sidrasul.com.br/wp-content/uploads/2015/10/infraestrutura-minerac... · tipos de roscas. CASING SYSTEM BITS TOP HAMMER. 3. 75 cm (30”) Produtos

Sistemas de detecçao e classificaç˜ ao de˜ impulsos ... · drado que consiste de apenas tres transistores, como bloco funcional bˆ asico para a´ realizaçao da operaç˜

CONTRATO DE PRESTAÇÃO DE SERVIÇO TELEFÔNICO ... - TIM …timcasafixo.tim.com.br/Contrato/termos.pdf · A INTELIG TELECOMUNICAÇÕES LTDA., com sede na Rua Fonseca Teles, nº 18,

Inteligência Emocional e Liderança - Nautilus Home Pagenautilus.fis.uc.pt/.../disc/dpp/rec/02/02/intelig-emocional-lider.pdf · Inteligência Emocional e Liderança – FCUP Maio

Planejamento pré‐operatório de artroplastias totais ... · protrusão acetabular moderada e grave pela Classiﬁcac¸ão de Sotelo-Garza e Charnley12; displasia acetabular acima

COS746 Topicos Especiais em Intelig´ encia Artiﬁcialˆ

Monitoramento ambiental em atividades de mineraçãotommasiambiental.com.br/wp-content/uploads/2018/09/FQ-003-Minerac... · Setor de grande relevância para a economia do país, ...

PowerPoint Presentation ESTRATEGIA E INTELIG… · BRASIL . 0000000 0 . MAXIBOARD 1 Imagens ilustrativas. BILLBOARD . globocom gl globoespolte gsr,ow vídecs CIÊNCIA E SAÚDE Dez

COS746 Topicos Especiais em Intelig´ encia Artiﬁcialˆvitor/aulas/COS746/aula8.pdf · Arvores Filogen´ eticas: Ideias B´ asicas´ • Folhas representam coisas (genes, indiv´ıduos/fam

UmLevantamentodeM etodosdeAvaliaç´ aodeArquiteturas ... · classificaç ão desses m etodos utilizando diferentes crit´ érios [Dobrica and Niemel 2002, Babar and Gorton 2004,