RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de...

27
RAFAEL THOMAZ DE ARAÚJO PROPOSTA DE ALGORITMO ADAPTATIVO PARA DETECÇÃO DE FLOCKS ON-LINE LONDRINA 2018

Transcript of RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de...

Page 1: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

RAFAEL THOMAZ DE ARAÚJO

PROPOSTA DE ALGORITMO ADAPTATIVO PARA DETECÇÃO DE

FLOCKS ON-LINE

LONDRINA2018

Page 2: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

RAFAEL THOMAZ DE ARAÚJO

PROPOSTA DE ALGORITMO ADAPTATIVO PARA DETECÇÃO DE

FLOCKS ON-LINE

Versão Preliminar de Trabalho de Conclusão deCurso apresentado ao curso de Bacharelado emCiência da Computação da Universidade Esta-dual de Londrina para obtenção do título de Ba-charel em Ciência da Computação.

Orientador: Prof(a). Dr(a). Daniel dos San-tos Kaster

LONDRINA2018

Page 3: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

Ficha de identificação da obra elaborada pelo autor, através do Programa de GeraçãoAutomática do Sistema de Bibliotecas da UEL

Sobrenome, Nome.Título do Trabalho : Subtitulo do Trabalho / Nome Sobrenome. - Londrina, 2017.100 f. : il.

Orientador: Nome do Orientador Sobrenome do Orientador.Coorientador: Nome Coorientador Sobrenome Coorientador.Dissertação (Mestrado em Ciência da Computação) - Universidade Estadual de

Londrina, Centro de Ciências Exatas, Programa de Pós-Graduação em Ciência daComputação, 2017.

Inclui bibliografia.

1. Assunto 1 - Tese. 2. Assunto 2 - Tese. 3. Assunto 3 - Tese. 4. Assunto 4 - Tese. I.Sobrenome do Orientador, Nome do Orientador. II. Sobrenome Coorientador, NomeCoorientador. III. Universidade Estadual de Londrina. Centro de Ciências Exatas. Programade Pós-Graduação em Ciência da Computação. IV. Título.

Page 4: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

RAFAEL THOMAZ DE ARAÚJO

PROPOSTA DE ALGORITMO ADAPTATIVO PARA DETECÇÃO DE

FLOCKS ON-LINE

Versão Preliminar de Trabalho de Conclusão deCurso apresentado ao curso de Bacharelado emCiência da Computação da Universidade Esta-dual de Londrina para obtenção do título de Ba-charel em Ciência da Computação.

BANCA EXAMINADORA

Orientador: Prof(a). Dr(a). Daniel dos SantosKaster

Universidade Estadual de Londrina

Prof. Dr. Segundo Membro da BancaUniversidade/Instituição do Segundo Membro

da Banca – Sigla instituição

Prof. Dr. Terceiro Membro da BancaUniversidade/Instituição do Terceiro Membro

da Banca – Sigla instituição

Prof. Ms. Quarto Membro da BancaUniversidade/Instituição do Quarto Membro da

Banca – Sigla instituição

Londrina, XX de dezembro de 2018.

Page 5: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

Este trabalho é dedicado às crianças adultas

que, quando pequenas, sonharam em se tornar

cientistas.

Page 6: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

AGRADECIMENTOS

Page 7: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],
Page 8: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

ARAUJO, R. T.. Proposta de algoritmo adaptativo para detecção de flocks on-line. 2018.26f. Trabalho de Conclusão de Curso – Versão Preliminar (Bacharelado em Ciência da Compu-tação) – Universidade Estadual de Londrina, Londrina, 2018.

RESUMO

A grande disponibilidade de dispositivos de localização gera uma enorme quantidade de dadosespaços-temporais que, por sua vez, tem despertado o interesse pela análise dos padrões demovimento que os dados podem descrever. Um desses padrões é o Padrão Flock, definido comoum conjunto de objetos se movimentando juntos em um intervalo de tempo e com uma certadistância entre eles, delimitada por um disco. Com um universo de mais de dez algoritmospara a detecção de flocks, envolvendo diversas técnicas e estruturas, o usuário se encontra emuma difícil situação ao deduzir qual algoritmo atende às suas necessidades. Neste contexto,a proposta do trabalho é a de um algoritmo adaptativo, baseado na extração de estatísticas emedidas durante a execução dos algoritmos existentes com o intuito de obter um método declassificação e assim, a partir das entradas, parâmetros e organização dos dados, este algoritmopossa se adaptar ao longo da execução, identificando a melhor solução para o atual instante.

Palavras-chave: Latex. Template ABNT-DC-UEL. Editoração de texto.

Page 9: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

ARAUJO, R. T.. Proposal of adaptive algorithm for online flock detection. 2018. 26p. Fi-nal Project – Draft Version (Bachelor of Science in Computer Science) – State University ofLondrina, Londrina, 2018.

ABSTRACT

The large availability of tracking devices creates a huge quantity of spatiotemporal data, whichhas aroused interest in the analysis of the moving patterns that the spatiotemporal data candescribe. One of these moving patterns is the Flock Pattern, defined as a number of objectsmoving together in a time interval within a certain distance between them, which is delimitedby a disk. With a universe of more than ten algorithms to discover flock patterns, which involvesa lot of techniques and structures, the user is in a difficult task to deduce which algorithm meetshis or her needs. In this context, the proposal of this research is an adaptative algorithm, which isbased on the extraction of statistics and measures under the execution of the existing algorithmsin order to classifies them and thus the algorithm can adapt throughout the execution, analysingthe inputs, parameters and data distribution and managing to identify the best strategy for thecurrent instant of time.

Keywords: Latex. ABNT-DC-UEL template. Text editoration.

Page 10: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

LISTA DE ILUSTRAÇÕES

Figura 1 – Exemplo do Padrão Flock (Retirada de [1]) . . . . . . . . . . . . . . . . . . 17Figura 2 – Discos formados por p1, p2, d(p1, p2)≤ ε . (Retirada de [2]) . . . . . . . . . 17Figura 3 – Exemplo do índice baseado em grade (Retirada de [1]) . . . . . . . . . . . . 18Figura 4 – Exemplo de varredura de plano para encontrar discos em uma instância de

tempo (Retirada de [3]). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19Figura 5 – Exemplo de junção dos discos com o índice invertido (Retirada de [4]). . . . 20Figura 6 – Exemplo das trajetórias e seus discos representados em transações (Retirada

de [5]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

Page 11: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

LISTA DE TABELAS

Page 12: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

LISTA DE ABREVIATURAS E SIGLAS

ABNT Associação Brasileira de Normas Técnicas

BNDES Banco Nacional de Desenvolvimento Econômico e Social

IBGE Instituto Nacional de Geografia e Estatística

IBICT Instituto Brasileiro de Informação em Ciência e Tecnologia

NBR Norma Brasileira

Page 13: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

SUMÁRIO

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . . . 152.1 Trajetórias de Objetos Móveis . . . . . . . . . . . . . . . . . . . . . . . . 152.2 Padrões de Movimentação . . . . . . . . . . . . . . . . . . . . . . . . . . 152.3 O Padrão Flock . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.4 Algoritmos para Detecção do Padrão Flock . . . . . . . . . . . . . . . . 162.4.1 Basic Flock Evaluation Algorithm (BFE) . . . . . . . . . . . . . . . . . . . 162.4.2 Plane sweeping, Signatures and Indexes Algorithm (PSI) . . . . . . . . . . . 182.4.3 LCMFlock . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.5 Aprendizado de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3 DESENVOLVIMENTO . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.1 Materiais e Métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.1.1 Análise de métricas para o aprendizado de máquina . . . . . . . . . . . . . 223.1.2 Construção das bases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.1.3 Treinamento do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

5 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

Page 14: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

13

1 INTRODUÇÃO

Os dados espaçotemporais já existem em grande quantidade e ainda estão em cresci-mento devido à evolução e barateamento de equipamentos que utilizam GPS (Global Positi-

oning System), estes equipamentos são facilmente encontrados no dia-a-dia, por exemplo emveículos e rastreadores, assim como há celulares, relógios e outros dispositivos móveis queutilizam serviços de localização, como Waze1 e Foursquare2, e geram uma grande massa dedados.

O estudo dos dados de objetos móveis pode descrever características referentes aos seusmovimentos no espaço-tempo, ou seja, padrões de movimentação encontrados nas trajetóriasindividuais ou nos grupos de trajetórias que se movimentam de determinadas formas. Uma tra-jetória representa uma sequência de posições gravadas durante um tempo para um objeto móvelespecífico [4]. Os padrões revelam comportamentos em diversas áreas de atuação, desde estu-dos no comportamento animal [6, 7] até padrões nos eventos urbanos [8, 9, 10]. Alguns tiposde padrões importantes são: padrão flock, liderança (leadership), reunião (meeting), padrão pe-riódico (periodic pattern) e local frequente (frequent location) [11, 12]. O padrão abordadoneste trabalho é o Padrão Flock, descrito por um número entidades se movimentando próxi-mas entre si, por dado período de tempo, onde a proximidade é limitada através um disco dediâmetro ε [6, 4, 5].

Para tal estudo de trajetórias e dados espaçotemporais existem algoritmos capazes deidentificar os padrões na distribuição dos dados. Para o Padrão Flock, é possível observar umagrande quantidade de algoritmos, os três principais são: O algoritmo BFE (Basic Flock Evalu-

ation Algorithm), proposto por [1], que também propõe quatro heurísticas com a intenção demelhoria do desempenho. O algoritmo PSI (Plane sweeping, Signatures and Indexes), apre-sentado em [13, 2], que tem como base o BFE substituindo algumas técnicas. E algoritmoLCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias paratransações [4].

Experimentos preliminares, como [4, 1], mostram que não existe um algoritmo ven-cedor em todos os casos, e não é uma tarefa trivial identificar em quais casos cada um é omais eficiente. Neste contexto, percebe-se a lacuna de uma estratégia envolvendo as soluçõesexistentes, que consiga identificar o algoritmo mais apropriado em cada situação.

O objetivo do trabalho é propor um algoritmo adaptativo, a partir de um treinamento ba-seado nas estatísticas dos algoritmos, distribuição de dados de entrada e outros parâmetros, quepossibilite classificar a situação atual da execução e prever qual algoritmo é o mais adequadopara o momento e, inclusive, com possibilidade de troca de algoritmo durante o tempo, se adap-1 <https://www.waze.com/>2 <https://foursquare.com/>

Page 15: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

14

tando na melhor estratégia ao observar os parâmetros envolvidos no modelo de aprendizado.

Page 16: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

15

2 FUNDAMENTAÇÃO TEÓRICA

Neste capítulo são explicados alguns dos conceitos para melhor compreensão do tra-balho proposto. A seção 2.1 apresenta o conceito de trajetórias de objetos móveis. A seção 2.2descreve sobre padrões de grupo de objetos móveis em movimento. Na subseção 2.3 existe a de-finição sobre o Padrão Flock. A seção 2.4 apresenta os principais algoritmos para identificaçãodos flocos, bem como as técnicas utilizadas para tais implementações. Por último, a seção 2.5mostra o conceito de aprendizado de máquina.

2.1 Trajetórias de Objetos Móveis

Em geral, trajetórias são caracterizadas por serem uma sequência de pontos localizadosno espaço e tempo relacionados ao caminho de um determinado objeto móvel. Considerando oespaço Euclidiano, seguem as Definições 1, 2 e 3 adaptadas de [14] para formalizar os conceitosde ponto, trajetória e subtrajetória.

Definição 1 Um ponto p é uma tupla (x,y, t) onde x e y são coordenadas espaciais represen-

tando um lugar e t o instante de tempo em que este ponto foi coletado.

Definição 2 A trajetória T de um objeto móvel (MO) é a sequência de pontos

< p1, p2, . . . , pn > amostrados, onde pi = (xi,yi, ti) e t1 < t2 < .. . < tn.

Definição 3 Uma subtrajetória T ′ de T é uma lista de pontos consecutivos

< pk, pk+1, . . . , pk+l >, onde pi ⊂ T , k ≥ 1, e k+ l ≤ n.

Baseado nas trajetórias, é possível estudar sobre seus comportamentos com a intençãode identificar os padrões de agrupamento, observando os movimentos e paradas de objetos, bemcomo a relação entre grupos de trajetórias e suas modificações durante o tempo.

2.2 Padrões de Movimentação

As análises de dados espaçotemporais envolvem técnicas de mineração dos dados epodem ser aplicadas em diversas situações, como as seguintes, retiradas de [4]:

∙ Biologia: movimentação animal, realocação animal e extinção;

∙ Ecologia: rastreamento de incidentes de poluição e investigação de causas em mudançasambientais;

Page 17: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

16

∙ Transporte: planejamento de tráfego, rastreamento de veículos e monitoramento de trá-fego;

O objetivo principal dessas análises é a descoberta de correlações e padrões na mo-vimentação dos objetos. Esses padrões de movimentação descrevem relacionamentos entre astrajetórias dos objetos, podendo se referir ao estudo de apenas uma trajetória ou de um grupode trajetórias. Na literatura, os padrões são normalmente classificados como agrupamento detrajetórias, padrões sequenciais, padrões periódicos e padrões de grupos se movendo juntos [3],no qual o Padrão Flock está relacionado.

2.3 O Padrão Flock

O Padrão Flock é um dos padrões mais estudados dentre os padrões de movimentação.Sua definição é dada pela Definição 4 [1].

Definição 4 Dados um conjunto de trajetórias T , um número mínimo de trajetórias µ > 1 (µ ∈N), uma distância máxima ε > 0, definida por uma função de distância d, e um tempo de

duração δ > 1 (δ ∈ N). Um padrão Flock(µ,ε,δ ) retorna todas as coleções F de tamanho

máximo de trajetórias onde: para cada Fj ∈F , o número de trajetórias em Fj é maior ou igual

a µ (|Fj| ≥ µ) e existem δ instantes de tempo consecutivos tal que para todo ti ∈ [F t1j . . .F t1+δ

j ],

há um disco de centro ctij e raio ε/2 cobrindo todos os pontos em F ti

j .

Para exemplificar, a Figura 1 ilustra as trajetórias T1, . . .T5 e identifica um flock formadopor {T1,T2,T3}, com µ = 3 e δ = 3. No exemplo, Ti representa a trajetória das entidades, ck

i re-presenta o disco em que as trajetórias são consideradas próximas entre si e ti representa instantesconsecutivos de tempo.

A detecção de padrões flock é relevante devido às características do seu objeto de estudo(animais, pedestres, veículos ou fenômenos naturais), como são as interações entre as entidadese como os grupos se movimentam [5].

2.4 Algoritmos para Detecção do Padrão Flock

As subseções abaixo apresentam os três principais algoritmos e também as técnicas,estruturas e heurísticas aplicadas visando melhoria da solução.

2.4.1 Basic Flock Evaluation Algorithm (BFE)

O algoritmo BFE (Basic Flock Evaluation) [1] foi o primeiro algoritmo proposto paraa detecção de padrões flock de acordo com a Definição 4 para o padrão. Além disso, os autoresapresentaram quatro heurísticas aplicadas ao BFE. Basicamente, o BFE consiste duas etapas: a

Page 18: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

17

Figura 1 – Exemplo do Padrão Flock (Retirada de [1])

.

geração de discos candidatos no tempo atual ti e a junção desses discos com os candidatos dotempo anterior ti−1.

Para a geração dos discos candidatos, o algoritmo constrói, para cada instante de tempo,uma estrutura de índice baseado em grade, que consiste em dividir o plano em uma grade comcélulas de tamanho ε de lado fazendo com que cada ponto pti

id de uma trajetória no instante tiesteja em alguma célula do índice. Desse modo, a estrutura reduz o espaço de busca em relaçãoaos outros pontos. É importante ressaltar o Teorema 1 do trabalho [1], que afirma que para cadapar de pontos, com distância máxima de ε , existem dois discos de raio ε/2 e centro ck quecobrem ambos os pontos em sua circunferência. Essa análise é visualizada na Figura 2, a qualapresenta os dois discos, com centros ck e c′k e raio ε/2, para o par de pontos p1 e p2. Alémdisso o teorema permite limitar o número de centros de discos sem que haja perda de respostas,pois as possibilidades de discos seriam infinitas ao qualquer deslocamento mínimo dos centros.

Figura 2 – Discos formados por p1, p2, d(p1, p2)≤ ε . (Retirada de [2])

.

Com o índice construído, o algoritmo itera para cada grade gx,y não vazia e, para cada

Page 19: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

18

ponto, é feita uma busca pelos pontos com até ε de distância, para isso são considerados apenasos pontos da própria célula e das oito vizinhas, garantindo a distância. A Figura 3 exemplificaesse procedimento. Por fim, o algoritmo verifica se o número de pontos cobertos por um discoé no mínimo µ , ou seja, um flock candidato. Ainda existe a identificação apenas dos discosmaximais, com a eliminação daqueles que são subconjuntos.

Figura 3 – Exemplo do índice baseado em grade (Retirada de [1])

.

Para a junção, é feita a comparação de cada um dos discos que estão processados emti com o conjunto de candidatos do instante anterior, procurando por aqueles que tenham aomenos µ entidades em comum, nessa condição o disco processado é considerado um candidato.Caso o mesmo conjunto de trajetórias apareça durante δ instantes consecutivos, então este éconsiderado um flock.

Visto que o número de discos candidatos em uma instância de tempo pode ser muitogrande e o custo para a junção destes pode ser bastante caro, quatro heurísticas foram propostasainda em [1] com o intuito de limitar o número de discos candidatos e utilizando como baseo algoritmo BFE. As heurísticas são as seguintes: Top Down Evaluation (TDE), Pipe Filter

Evaluation (PFE), Continuous Refinement Evaluation (CRE) e Cluster Filtering Evaluation

(CFE).

2.4.2 Plane sweeping, Signatures and Indexes Algorithm (PSI)

O algoritmo PSI (Plane sweeping, Signatures and Indexes), solução apresentada por [13],aplica variações ao algoritmo BFE utilizando as técnicas: varredura de plano (plane sweeping),assinatura binária (binary signatures) e índice invertido (inverted index).

Para a identificação dos discos, o PSI utiliza a técnica de varredura de plano. Para cadainstante de tempo, a varredura nos pontos é feita da esquerda para direita no eixo x, tomando

Page 20: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

19

um ponto pr como centro de uma caixa de tamanho 2ε ×2ε . Após isso, o algoritmo procura porpontos tais que a distância seja menor que ε em relação a pr, para gerar os discos, essa buscaocorre apenas para a parte direita da caixa, pois os pontos à esquerda já foram processados e sóservirão para calcular o número de entidades nos discos. Caso um disco contenha pelo menos µ

entidades então é declarado como um candidato e a caixa em que está contido é considerada umacaixa ativa no instante de tempo, representada pelo seu MBR (Minimum Bounding Rectangle),delimitando todos os seus elementos. Os passos da varredura de plano são representados naFigura 4.

Figura 4 – Exemplo de varredura de plano para encontrar discos em uma instância de tempo(Retirada de [3]).

No processo de filtragem dos discos candidatos, iterando as caixas ativas no instanteatual, ocorre a comparação entre o MBR da caixa atual e os MBRs das caixas próximas aela. Se houver intersecção, é necessário a verificação de subconjuntos, senão é considerado umflock candidato. A verificação é baseada em assinaturas binárias sempre que um disco candidatoé encontrado, são aplicadas funções de espalhamento (hash) sobre seus pontos, mapeando-osem posições de um vetor binário (filtro de Bloom). Assim, quando ocorre a intersecção, aplica-se uma operação AND sobre os vetores de cada par de discos, se o resultado da operação éigual um dos operandos, então o outro operando pode ser um subconjunto. Um filtro de Bloompode gerar falsos-positivos, por isso, após o teste de subconjunto, é necessário a operação deintersecção de conjuntos para eliminar eventuais falsos-positivos [4].

Por último, no processo junção dos discos candidatos, o algoritmo PSI utiliza a estruturade índice invertido para saber quais discos do tempo anterior são os necessários para realizara junção. O índice invertido consiste em guardar os identificadores de cada entidade e estesapontam para uma lista com os discos em que se encontram em ti−1. Sabendo disso, dado umdisco em ti, cada um de seus pontos é identificado na estrutura para saber em quais discos estãono tempo anterior, retornando um conjunto de discos para cada entidade. Na junção, considera-se os discos que aparecem pelo menos µ vezes nesses conjuntos. Essa estrutura é representadana Figura 5, mostrando um exemplo de junção dos discos nos instantes consecutivos, com µ = 3,e a lista previamente citada.

Page 21: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

20

Figura 5 – Exemplo de junção dos discos com o índice invertido (Retirada de [4]).

Assim como o BFE, o PSI possui variações alternando entre as técnicas e estruturasutilizadas. Os algoritmos, também propostos por [13], são: Basic Flock Evaluation with In-

verted index (BFI), Plane Sweeping Raw (PSW) e Plane Sweeping with Binary Signatures

(PSB). E as heurísticas: Continuous Refinement Evaluation with Plane Sweeping (CRE_PS),Top-Down Evaluation with Plane Sweeping (TDE_PS) e Pipe Filter Evaluation with Plane

Sweeping (PFE_PS).

2.4.3 LCMFlock

O algoritmo LCMFlock é uma versão proposta em [5], sendo esta uma alternativa off-line, que consiste nas etapas de busca por discos candidatos em todos os instantes de tempo,transformando estes discos em uma representação transacional, como é visto na Figura 6. Apósessa conversão, utiliza-se do algoritmo LCM [15] aplicado nas transações para mineração dositens frequentes, a fim de verificar os discos que estiveram em pelo menos µ transações. Por fim,realiza processos para verificação dos flocks em tempos consecutivos, exclusão de duplicados eassim, retorna os padrões identificados.

Figura 6 – Exemplo das trajetórias e seus discos representados em transações (Retirada de [5])

.

É importante citar que no LCMFlock o conjunto de entrada de dados tem que ser carre-gado inteiro para dar início à execução, impossibilitando a utilização de streams para a entrada

Page 22: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

21

de dados. Sabendo desse impasse, foi proposto em [4] uma versão on-line para o algoritmo,no qual utilizou-se da aplicação de uma janela de tempo com tamanho δ como um conjuntode dados, então o algoritmo pode ser executado assim que o número de instantes disponíveisforem pelo menos δ , sendo capaz de processar fluxo de dados.

Com a grande quantidade de algoritmos para detecção de flocks, experimentos em tra-balhos anteriores indicaram que não existe um algoritmo mais eficiente para todos os casos.Então, é responsabilidade do usuário escolher o algoritmo a executar, o que é não é uma tarefatrivial.

2.5 Aprendizado de Máquina

O Aprendizado de Máquina [16] é uma área de estudo na Inteligência Artificial que temcomo objetivo elaborar modelos que aprendam a partir de treinamentos com base em amostrasde características e métricas que descrevem o problema, assim, dado um conjunto de descrito-res, o modelo tem a capacidade de fazer previsões e decisões sobre os dados. Pode ser definidocomo supervisionado ou não-supervisionado. No aprendizado supervisionado, os modelos sãotreinados a partir de exemplos rotulados, ou seja, um determinado conjunto de entradas rela-cionadas com suas respectivas saídas corretas, assim após o treinamento, o modelo é capaz deprever os valores de saída em entradas não-rotuladas. Já no aprendizado não-supervisionado, osalgoritmos devem explorar os dados e descobrir alguma relação entre eles, por meio de proxi-midade, agrupamento, entre outras estratégias.

Page 23: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

22

3 DESENVOLVIMENTO

Este capítulo explicará o desenvolvimento do trabalho a partir das análises dos algorit-mos para a extração de métricas na execução, com o intuito de descrever o problema, a criaçãodas bases de dados e como foram rotuladas com os algoritmos de detecção. E o treinamentodo modelo para classificação de novas amostras, juntamente com métodos para avaliação dasrespostas geradas.

3.1 Materiais e Métodos

Com o objetivo de propor um algoritmo adaptativo, o desenvolvimento partiu da análisedos algoritmos existentes a fim de extrair métricas relevantes para o treinamento do modelo.No caso, o rótulo dessas entradas é o algoritmo de detecção de padrões flock que resolve maisrápido para aquela distribuição de dados. Assim, aplicando os algoritmos com diversos datasets

e extraindo as métricas necessárias relacionadas ao algoritmo mais rápido, pode-se criar basesde dados para o aprendizado de máquina.

3.1.1 Análise de métricas para o aprendizado de máquina

3.1.2 Construção das bases

3.1.3 Treinamento do modelo

Page 24: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

23

4 RESULTADOS

Page 25: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

24

5 CONCLUSÃO

Page 26: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

25

REFERÊNCIAS

[1] VIEIRA, M. R.; BAKALOV, P.; TSOTRAS, V. J. On-line discovery of flock patternsin spatio-temporal data. In: Proceedings of the 17th ACM SIGSPATIAL InternationalConference on Advances in Geographic Information Systems. New York, NY, USA:ACM, 2009. (GIS ’09), p. 286–295. ISBN 978-1-60558-649-6. Disponível em:<http://doi.acm.org/10.1145/1653771.1653812>.

[2] TANAKA, P. S.; VIEIRA, M. R.; KASTER, D. dos S. An improved base algorithm foronline discovery of flock patterns in trajectories. JIDM, v. 7, p. 52–67, 2016.

[3] SANCHES, D. E. Detecção On-line de top-k Flocks com Diâmetro como Parâmetro Livre.Londrina: [s.n.], 2017.

[4] TANAKA, P. S. Mestrado, Algoritmos eficientes para detecção do padrão Floco embanco de dados de trajetórias. Londrina: [s.n.], 2016.

[5] TURDUKULOV, U. et al. Visual mining of moving flock patterns in large spatio-temporaldata sets using a frequent pattern approach. International Journal of GeographicalInformation Science, Taylor and Francis, v. 28, n. 10, p. 2013–2029, 2014. Disponível em:<https://doi.org/10.1080/13658816.2014.889834>.

[6] BENKERT, M. et al. Reporting flock patterns. Computational Geometry, v. 41, n. 3, p.111–125, 2008. ISSN 0925-7721. Disponível em: <http://www.sciencedirect.com/science/article/pii/S092577210700106X>.

[7] RAO, K. V.; GOVARDHAN, A.; RAO, K. C. Spatiotemporal data mining: Issues, tasksand applications. v. 3, p. 39–52, 02 2012.

[8] DUAN, W. et al. Spatiotemporal evaluation of water quality incidents in japan between1996 and 2007. Chemosphere, v. 93, n. 6, p. 946 – 953, 2013. ISSN 0045-6535. Disponívelem: <http://www.sciencedirect.com/science/article/pii/S0045653513008060>.

[9] ROMERO, A. O. C. Mining Moving Flock Patterns in Large Spatio-temporal Datasetsusing a Frequent Pattern Mining Approach. Tese (PHD’s Thesis) — University of Twente,The Netherlands, 2011.

[10] WACHOWICZ, M. et al. Finding moving flock patterns among pedestriansthrough collective coherence. International Journal of Geographical InformationScience, Taylor and Francis, v. 25, n. 11, p. 1849–1864, 2011. Disponível em:<https://doi.org/10.1080/13658816.2011.561209>.

[11] GUDMUNDSSON, J.; LAUBE, P.; WOLLE, T. Movement patterns in spatio-temporaldata. In: . Encyclopedia of GIS. Boston, MA: Springer US, 2008. p. 726–732. ISBN978-0-387-35973-1. Disponível em: <https://doi.org/10.1007/978-0-387-35973-1_823>.

[12] GUDMUNDSSON, J.; KREVELD, M. van; SPECKMANN, B. Efficient detection ofmotion patterns in spatio-temporal data sets. 2005.

[13] TANAKA, P. S.; VIEIRA, M. R.; KASTER, D. dos S. Efficient algorithms to discoverflock patterns in trajectories. In: GeoInfo. [S.l.: s.n.], 2015.

Page 27: RAFAEL THOMAZ DE ARAÚJO · LCMFlock, apresentado por [5], que utiliza uma estratégia de mapeamento de trajetórias para transações [4]. Experimentos preliminares, como [4,1],

26

[14] BOGORNY, V. et al. Constant – a conceptual data model for semantic trajectoriesof moving objects. Transactions in GIS, v. 18, n. 1, p. 66–88, 2017. Disponível em:<https://onlinelibrary.wiley.com/doi/abs/10.1111/tgis.12011>.

[15] UNO, T.; KIYOMI, M.; ARIMURA, H. Lcm ver.3: Collaboration of array, bitmap andprefix tree for frequent itemset mining. In: Proceedings of the 1st International Workshopon Open Source Data Mining: Frequent Pattern Mining Implementations. New York,NY, USA: ACM, 2005. (OSDM ’05), p. 77–86. ISBN 1-59593-210-0. Disponível em:<http://doi.acm.org/10.1145/1133905.1133916>.

[16] BISHOP, C. M. Pattern Recognition and Machine Learning (Information Science andStatistics). Berlin, Heidelberg: Springer-Verlag, 2006. ISBN 0387310738.