TÉCNICAS DE VISUALIZAÇÃO DE DADOS PARA AUXÍLIO AO ... · compreender o crescimento criminal da...

71
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE ENSINO SUPERIOR DO SERIDÓ DEPARTAMENTO DE COMPUTAÇÃO E TECNOLOGIA BACHARELADO EM SISTEMAS DE INFORMAÇÃO JOSÉ RUMMENIGGE PEREIRA MAIA TÉCNICAS DE VISUALIZAÇÃO DE DADOS PARA AUXÍLIO AO PROCESSO DE TOMADA DE DECISÃO NA POLÍCIA MILITAR NO MUNICÍPIO DE CAICÓ/RN Caicó-RN 2016

Transcript of TÉCNICAS DE VISUALIZAÇÃO DE DADOS PARA AUXÍLIO AO ... · compreender o crescimento criminal da...

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE

CENTRO DE ENSINO SUPERIOR DO SERIDÓ

DEPARTAMENTO DE COMPUTAÇÃO E TECNOLOGIA

BACHARELADO EM SISTEMAS DE INFORMAÇÃO

JOSÉ RUMMENIGGE PEREIRA MAIA

TÉCNICAS DE VISUALIZAÇÃO DE DADOS PARA AUXÍLIO AO PROCESSO DE

TOMADA DE DECISÃO NA POLÍCIA MILITAR NO MUNICÍPIO DE CAICÓ/RN

Caicó-RN

2016

JOSÉ RUMMENIGGE PEREIRA MAIA

TÉCNICAS DE VISUALIZAÇÃO DE DADOS PARA AUXÍLIO AO PROCESSO DE

TOMADA DE DECISÃO NA POLÍCIA MILITAR NO MUNICÍPIO DE CAICÓ/RN

Trabalho de Conclusão de Curso II apresentado ao

curso de graduação em Sistemas de Informação,

como parte dos requisitos para obtenção do título

de Bacharel em Sistemas de Informação da

Universidade Federal do Rio Grande do Norte.

Orientadora: Prof.ª Aislânia Alves de Araújo,

MSc.

Coorientador: Amarildo Jeiele Ferreira de

Lucena, Graduado.

Caicó-RN

2016

AGRADECIMENTOS

Agradeço primeiramente a Deus que permitiu a minha existência e que me guiou por

toda a vida. Embora muitos duvidem da sua existência hoje, eu sei que por trás de um grande

sistema sempre tem um grande desenvolvedor.

Agradeço aos meus pais Cecílio Segundo Maia e Rosenilda Pereira que estiveram

comigo durante todos esses anos, principalmente nos anos da faculdade.

Agradeço aos meus orientadores o Prof. Amarildo Jeiele Ferreira de Lucena e a Prof.ª

Aislânia Alves de Araújo que me auxiliaram durante todo o desenvolvimento desta

monografia.

Agradeço ao professor Flavius da Luz e Gorgônio por fornecer o espaço do

Laboratório de Inteligência Computacional Aplicada a Negócios (LABICAN) e por participar,

junto com os orientadores, na supervisão do desenvolvimento do trabalho.

Agradeço à Central de Operações da Polícia Militar (COPOM) de Caicó-RN por ter

fornecido, por intermédio do professor Amarildo Jeiele Ferreira de Lucena, a base de dados

de ocorrências criminais utilizada para obter os resultados desta pesquisa.

“A primeira e principal obrigação

do governo é a segurança pública.”

(Arnold Schwarzenegger)

RESUMO

A visualização de dados é compreendida como a ciência da representação de dados em

formato gráfico. Ela permite que os tomadores de decisão analisem estatísticas de forma

visual, fazendo com que os mesmos identifiquem padrões nos dados e obtenham um

entendimento mais apurado sobre dificuldades encontradas nos registros. O presente trabalho

trata-se de uma pesquisa exploratória onde foram estabelecidos métodos, parâmetros e

técnicas para a visualização de dados. Os dados utilizados na pesquisa são da base de dados

criminais da Polícia Militar do município de Caicó-RN. O objetivo da pesquisa foi

compreender o crescimento criminal da cidade com o uso da visualização dos dados integrada

com os processos do KDD sobre as ocorrências criminais a partir de uma base com 37.554

registros de ocorrências registradas no período de 2008 a 2014. Foram aplicadas técnicas de

visualização como gráficos, mapeamento de pontos quentes, comparação de dados de

ocorrências criminais e análise de séries temporais utilizando as seguintes tecnologias da:

Google Maps API 3, Google Maps Geocoding API e Google Charts. Com a utilização das

técnicas de visualização em mapas de pontos quentes foi possível perceber o crescimento

anual dos crimes no município, assim como o acompanhamento da expansão criminal no ano

de 2013, durante os doze meses. Com a utilização dos gráficos foi possível obter estatísticas

para identificar quais crimes ocorreram com maior frequência e quais períodos dos sete anos

ocorreram o maior índice de registros. Também foi possível realizar comparações criminais

paralelas entre os períodos festivos municipais predeterminados para a análise. Embora não

tenham sido abordadas todas as técnicas visuais possíveis, conclui-se que a pesquisa foi

satisfatória trazendo resultados relevantes para o auxílio à tomada de decisão da Polícia

Militar no município de Caicó-RN.

Palavras-chave: Visualização de dados; Dados criminais; Google Maps.

ABSTRACT

Data visualization is understood as a data representation science in graphical format. It allows

the decision makers to analize statistics in a visual way, making possible them identify

patterns in the data and getting more accurate understanding about difficults found on them.

The present work is a exploratory research where were established methods, parameters and

techniques for data visualization. The data used in research came from a militar police

criminal database in the city of Caicó-RN. The main objective of this research it is

comprehend the criminal growth in city with the usage of data visualization integrated with

the KDD process over the criminal ocurrences, the base hold 37.554 entries of ocurrences

recorded in the period of 2008 and 2014. Were applied visualization techiques like graphs,

hotspots mapping, data comparison of criminal ocurrences and time series analysis using the

following technologies from Google: Google Maps API 3, Google Maps Geocoding API and

Google Charts. With usability of visualization techniques in hotspots maps it was possible to

see the yearly criminal growth in the city, just like the accompaniment of criminal expansion

in the year of 2013, through out the twelve months. With the usability of graphs was possible

to obtain statistics to identify which crimes most happened with greater rate and what periods

of seven year most there were occurrences records, also was possible to do a parallel criminal

comparison over the municipal festive periods predetermined to the analysis. It's concluded

that this research was satisfatory, bringing relevants results to the police decision making in

the city, although not were addressed all possible visual tecniques and the database had many

invalids records to hotspot mapping.

Key-words: Data visualization, Criminal data, Google Maps.

LISTA DE FIGURAS

Figura 1 – Uma explicação dos passos que compõem o processo do KDD...................... 19

Figura 2 – Gráfico de pizza ............................................................................... 22

Figura 3 – Gráfico de barras no estilo vertical ........................................................ 23

Figura 4 – Gráfico de barras no estilo horizontal ..................................................... 23

Figura 5 – Gráfico de barras agrupadas ................................................................. 24

Figura 6 – Gráfico de linhas .............................................................................. 24

Figura 7 – Sistema de informação geográfica com pontos quentes ................................ 25

Figura 8 – Tendência de longo termo ................................................................... 27

Figura 9 – Variações cíclicas ............................................................................. 28

Figura 10 – Variações sazonais .......................................................................... 28

Figura 11 – Movimentos irregulares .................................................................... 29

Figura 12 – Google Maps API aplicada em uma página HTML ................................... 35

Figura 13 – Mapeamento de pontos quentes entre 2008 e 2014 na cidade de Caicó ........... 41

Figura 14 – Ampliação do mapa sobre o centro de Caicó ........................................... 42

Figura 15 – Distribuição criminal de 2008 ............................................................. 43

Figura 16 – Distribuição criminal até 2009 ............................................................ 43

Figura 17 – Distribuição criminal de 2010 ............................................................. 44

Figura 18 – Distribuição criminal de 2011 ............................................................. 44

Figura 19 – Distribuição criminal de 2012 ............................................................. 45

Figura 20 – Distribuição criminal de 2013 ............................................................. 45

Figura 21 – Distribuição criminal até 2014 ............................................................ 46

Figura 22 – Os dez tipos de ocorrências criminais com maior frequência ....................... 47

Figura 23 – Total de ocorrências criminais entre 2008 e 2014 ..................................... 48

Figura 24 – Top 10 bairros com maior incidência criminal ......................................... 48

Figura 25 – Tendência em incidências criminais, 2008-2014 ...................................... 49

Figura 26 – Comparação de ocorrências entre carnavais de 2013 e 2014 ........................ 52

Figura 27 – Comparação de ocorrências entre as festas de Sant'Ana de 2013 e 2014 ......... 53

Figura 28 – Comparação de cinco tipos de ocorrências no período de 2008 a 2014 ........... 54

Figura 29 – Ocorrências criminais de janeiro de 2013 ............................................... 65

Figura 30 – Ocorrências criminais até fevereiro de 2013 ........................................... 65

Figura 31 – Ocorrências criminais até março de 2013 ............................................... 66

Figura 32 – Ocorrências criminais até abril de 2013 ................................................. 66

Figura 33 – Ocorrências criminais até maio de 2013 ................................................ 67

Figura 34 – Ocorrências criminais até junho de 2013 ................................................ 67

Figura 35 – Ocorrências criminais até julho de 2013 ................................................ 68

Figura 36 – Ocorrências criminais até agosto de 2013 ............................................... 68

Figura 37 – Ocorrências criminais até setembro de 2013 ........................................... 69

Figura 38 – Ocorrências criminais até outubro de 2013 ............................................. 69

Figura 39 – Ocorrências criminais até novembro de 2013 .......................................... 70

Figura 40 – Ocorrências criminais até dezembro de 2013 .......................................... 70

LISTA DE TABELAS

Tabela 1 – Dados selecionados que compõem a base de dados da COPOM .................... 34

Tabela 2 – Todas as colunas que compõem a tabela event .......................................... 38

Tabela 3 – Dados selecionados para aplicação das técnicas de visualização .................... 39

Tabela 4 – Total de ocorrências válidas e inválidas na base da COPOM ........................ 40

Tabela 5 – Tabela que compões os dados das ocorrências por trimestre ......................... 50

Tabela 6 – Normalização de índices sazonais ......................................................... 51

LISTA DE SIGLAS E ABREVIAÇÕES

API (Application Programming Interface) BPM (Batalhão de Polícia Militar) COPOM (Central de Operações da Polícia Militar) CSS (Cascading Style Sheets) HTML (HyperText Markup Language) JSON (JavaScript Object Notation) KDD (Knowledge Data Discovery) KDE (Kernel Density Estimation) PHP (Hypertext Preprocessor) SINESP (Sistema Nacional de Informações de Segurança Pública) SQL (Structured Query Language) SVG (Scalable Vector Graphics) URL (Uniform Resource Locator) XML (eXtensible Markup Language)

SUMÁRIO

1. INTRODUÇÃO ..................................................................................... 14

1.1. Contextualização e Problema .................................................................. 14

1.2. Objetivos do Trabalho ........................................................................... 15

1.2.1. Objetivo Geral .................................................................................. 15

1.2.2. Objetivos Específicos.......................................................................... 15

1.3. Delimitação do Estudo ........................................................................... 15

1.4. Justificativa do Estudo .......................................................................... 16

1.5. Organização do Texto ........................................................................... 16

2. VISUALIZAÇÃO DE DADOS E COMPORTAMENTO CRIMINAL NA

SOCIEDADE ............................................................................................... 17

2.1. Comportamento Criminal na Sociedade ................................................. 17

2.2. Descoberta de Conhecimento em Bases de Dados ..................................... 18

2.3. Visualização de Dados ........................................................................ 20

2.3.1. Perspectiva Humana da Visualização de Dados ....................................... 21

2.3.2. Diagramas para Visualização de Dados .................................................. 22

2.3.3. Mapeamento Criminal com Pontos Quentes ............................................ 25

2.3.4. Análise de Séries Temporais ................................................................ 26

2.4. Integração do KDD com a Visualização de Dados .................................... 29

2.5. Trabalhos relacionados ....................................................................... 31

3. METODOLOGIA .................................................................................. 32

3.1. Procedimento Metodológico ................................................................ 32

3.2. Tipo de Pesquisa ............................................................................... 32

3.3. Amostragem da Pesquisa .................................................................... 32

3.4. Tecnologias Utilizadas ........................................................................ 34

3.4.1. Google Maps API 3 ............................................................................ 34

3.4.2. Google Maps Geocoding API ............................................................... 35

3.4.3. Google Charts ................................................................................... 36

3.4.4. Linguagens e Ferramentas .................................................................. 36

3.4.4.1. Java ................................................................................................ 36

3.4.4.2. PHP ................................................................................................ 37

4. 9ANÁLISE DOS RESULTADOS OBTIDOS ............................................... 38

5. CONCLUSÕES E TRABALHOS FUTUROS ............................................... 55

REFERÊNCIAS ........................................................................................... 57

APÊNDICE A – Código Fonte Utilizado no Tratamento das Ocorrências Criminais ......... 61

APÊNDICE B – Distribuição Criminal Sobre os 12 Meses do Ano de 2013 ................... 64

14

1. INTRODUÇÃO

Desde 2004 encontra-se em funcionamento um sistema de gerenciamento nacional de

ocorrências criminais chamado SINESP (Sistema Nacional de Informações de Segurança

Pública), o objetivo deste sistema é unir, em uma só base de dados, todas as informações dos

setores de segurança pública do país. A existência deste datacenter nacional permite análises

mais consolidadas sobre as regiões do Brasil, possibilitando ações efetivas como análises e

estatísticas de dados para a prevenção de crimes.

A eficácia policial vem melhorando com a modernização dos setores de segurança

pública devido a utilização de sistemas de gerenciamento de dados, aprimorando os resultados

e a qualidade dos serviços policiais prestados à sociedade. A política policial deixa de ser

opressiva, passando a ser mais preventiva com a antecipação dos fatos adquirida mediante

conhecimento de informações e estatísticas (FERRER, 2005).

Porém, com a utilização de sistemas de gerenciamento de ocorrências criminais,

cresce a quantidade de dados sobre boletins de ocorrências nas bases de dados das centrais

policiais. O rápido crescimento desses dados excede a compreensão humana em setores de

segurança pública, pois decisões policiais importantes não são tomadas de acordo com a

quantidade dos mesmos, mas sim com a utilização de ferramentas para a extração de

conhecimento valioso que está embutido nessa vasta quantidade (HAN; KAMBER, 2011).

Uma técnica utilizada para extração de conhecimento em bases de dados é a

visualização de dados que, por disponibilizar diversos tipos de representações visuais,

possibilita ao usuário buscar por padrões e tendências que o auxiliarão na tomada de decisão

policial após serem identificados. O objetivo da visualização de dados é passar informações

de forma efetiva sobre determinados conjuntos de dados aos usuários utilizando-se de gráficos

estatísticos, plotagens em mapas e tabelas (FRY, 2007).

1.1. Contextualização e Problema

Tendo em vista o problema da quantidade de ocorrências criminais e da

disponibilidade de dados armazenados pela Polícia Militar, seria possível auxiliar a tomada de

decisão policial no município de Caicó, utilizando a visualização de dados sobre uma base de

dados criminais da cidade para adquirir informações e identificar padrões sobre o

comportamento criminal local?

15

Esta questão é de relevante importância devido ao grande volume de boletins de

ocorrências armazenados eletronicamente na central de polícia do município que, analisados,

podem vir a facilitar a obtenção de informações valiosas, auxiliando a busca por padrões de

ocorrências nos dados armazenados e sugerindo a existência de que possíveis crimes possam

ter algum tipo de relacionamento em comum ou com algum tipo de evento cultural.

1.2. Objetivos do Trabalho

1.2.1. Objetivo Geral

Este trabalho tem como objetivo geral utilizar técnicas de visualização de dados como

gráficos, mapeamento de pontos quentes, comparação de dados de ocorrências criminais,

análise de séries temporais para apoiar a tomada de decisão policial do município de Caicó-

RN.

1.2.2. Objetivos Específicos

O objetivo será dividido nos seguintes objetivos específicos:

Selecionar os dados dos boletins de ocorrências que serão utilizados para a

visualização dos mesmos, pois nem todos são adequados para visualização;

Transformar os dados inválidos das ocorrências criminais em valores próximos

ou remover essas ocorrências, caso não haja possibilidade de recuperação;

Utilizar técnicas de visualização de mapeamento de pontos quentes, gráficos de

pizza, gráficos de colunas, gráficos de linhas, comparação periódica de

ocorrências criminais, comparação anual de ocorrências criminais;

Analisar a distribuição criminal em determinado intervalos de tempos.

Verificar o acompanhamento sazonal de determinados tipos de crimes.

1.3. Delimitação do Estudo

Técnicas de mapeamento e visualização criminal são capazes de fornecer aos

tomadores de decisões um alcance sofisticado na prevenção de crimes, uma vez que detalhes

de como ocorreram tais delitos sejam armazenados de forma concisa (MOHLER, 2014). Com

o uso de técnicas como estatísticas visuais é possível investigar o impacto dos tipos de

ocorrências assim como determinar futuras casualidades que venham a ocorrer em

determinados domínios.

16

Desde 2008, encontra-se operando no 6º BPM (Batalhão de Polícia Militar) do

município de Caicó-RN, um sistema de gerenciamento de informações utilizado pela COPOM

(Central de Operações da Polícia Militar), que visa à manutenção de informações criminais da

cidade e região, onde são cadastrados todos os boletins de ocorrências registrados por vítimas

da criminalidade ou cidadãos local.

O presente trabalho limita-se na visualização de dados sobre os boletins de ocorrências

do município de Caicó-RN cadastrados entre os anos de 2008 a 2014, nos quais serão

utilizadas as técnicas de visualização de dados supracitadas nos objetivos específicos visando

a identificação de padrões que levem obtenção de conhecimento útil sobre o comportamento

criminal da cidade.

1.4. Justificativa do Estudo

Utilizando técnicas de visualização de dados, este trabalho visa alcançar um resultado

satisfatório na análise comportamental de crimes, dado que, a aplicação das técnicas será

realizada sobre os dados de boletins de ocorrências do município de Caicó-RN que vão de

2008 a 2014.

1.5. Organização do Texto

Este trabalho está organizado da seguinte forma:

Neste capítulo foram apresentados uma contextualização e problema,

objetivos, delimitações e justificativa utilizada;

No Capítulo 2 é feito a fundamentação teórica sobre visualização de dados e

comportamento criminal;

No Capítulo 3 é apresentada a metodologia do trabalho e as tecnologias

utilizadas para a obtenção da análise dos resultados;

No Capítulo 4 são apresentadas as análises dos resultados após a visualização

dos dados;

No Capítulo 5 são apresentadas as conclusões e algumas propostas para

trabalhos futuros.

17

2. VISUALIZAÇÃO DE DADOS E COMPORTAMENTO CRIMINAL

NA SOCIEDADE

2.1. Comportamento Criminal na Sociedade

A criminalidade na sociedade comporta-se de forma bastante estratégica, seja ela

organizada ou não, pois os criminosos tendem a cometer tais insurgências em locais de

conforto onde não haja perigo dos mesmos serem abordados pelo aparato policial. Eles visam

realizar os mesmos tipos de crimes, geralmente no mesmo tempo e localização, que foram

bem sucedidos no passado (PERRY et al, 2013).

Associações criminosas são grupos de pessoas que praticam atividades consideradas

de forma ilegal perante a sociedade, com o objetivo de beneficiarem-se materialmente dos

atos ilícitos cometidos pelos mesmos, conforme o artigo 1º, § 1º da Lei nº 12.850/2013

(BRASIL, 2013) que:

“Considera-se organização criminosa a associação de 4 (quatro) ou mais pessoas

estruturalmente ordenada e caracterizada pela divisão das tarefas, ainda que

informalmente, com o objetivo de obter direta ou indiretamente, vantagem de

qualquer natureza, mediante a prática de infrações penais cujas penas máximas

sejam superiores a 4 (quatro) anos, ou que sejam de caráter transacional”.

Segundo Bernica et al (2013), gangues de rua ganham influência em uma determinada

região onde as instabilidades políticas, geográficas, sociais, econômicas e culturas

predominam. A vulnerabilidade das pessoas nessas áreas oferece às gangues uma forma mais

fácil de recrutar novos integrantes criminosos para fazerem parte das mesmas, ganhando mais

força e poder de domínio. Em regiões onde o governo local convive com as

invulnerabilidades supracitadas, correm um maior risco de gangues sobrepor às forças

policiais através do combate tático ou do combate direto devido à desorganização

governamental.

As pessoas que já foram vítimas de algum tipo de crime no passado correm o risco

desproporcional de serem vítimas novamente, seja no mesmo local ou em locais próximos,

pelo mesmo infrator ou por grupos associados ao mesmo que, de antemão, realizara

determinada infração. Este fenômeno é também conhecido no conceito da literatura

criminológica como revitimização, que tanto ocorre em propriedades públicas e privadas

assim como na população em geral (OATLEY; EWARD, 2003).

18

Na teoria criminal, um crime que ocorreu em uma determinada hora e em um

determinado local pode vir a acontecer novamente, isso ocorre devido ao processo de

revitmização. Baseado nisso, indivíduos perigosos para a sociedade terão motivos suficientes

para praticarem atos ilícitos em certos locais e horas (FOX et al, 2012). Com o decorrer do

tempo, grupos de crimes relacionados serão formados nessas zonas, assumindo que futuros

crimes possam ocorrer novamente em tais locais, dando a unidades competentes a

possibilidade de atuarem baseando-se em padrões criminais encontrados em históricos desses

delitos (GERBER, 2014).

É altamente aceitável afirmar que o crime se espalha por ambientes e locais de uma

mesma região como se fosse um processo contagioso de uma doença. Assaltantes visam

atacar grupos de alvos próximos devido à vulnerabilidade do local. A contaminação desta

violência se espalha levando à formação de grupos criminais locais dentro de um espaço e

tempo (MOHLER et al, 2012).

2.2. Descoberta de Conhecimento em Bases de Dados

A descoberta de conhecimento em bases de dados, vinda do acrônimo em inglês

(Knowledge Discovery in Databases – KDD), é baseada no desenvolvimento de métodos e

técnicas que são utilizados para abstrair informações significantes em uma vasta quantidade

de dados brutos. O método tradicional para tornar tais dados em conhecimento útil é

fundamentado na análise manual e interpretação dos mesmos (FAYYAD; PIATETSKY-

SHAPIRO; SMYTH, 1996).

Ainda de acordo com Fayyad, Piatetsky-Shapiro e Smyth (1996), o processo KDD

utiliza uma base de dados adjunta de seleções, pré-processamentos, subamostras e

transformações necessárias que possam ser realizadas sobre a mesma, aplica-se então as

tarefas de mineração de dados, enumera os padrões dos dados e estima os resultados da

mineração de modo que sejam identificados os subconjuntos de tais padrões de forma

específica, sendo possível a identificação de conhecimento plausível.

A Figura 1 ilustra o passo-a-passo dos processos interativos e iterativos do KDD, que

envolve as várias fases do mesmo, bem como as muitas decisões que podem ser tomadas pelo

usuário. O processo KDD compreende muitos passos que envolvem preparação de dados,

busca por padrões, avaliação de conhecimento e refinação de dados, todos repetidos em várias

interações até que se alcance algum conhecimento válido para a tomada de decisão.

19

Figura 1 – Uma explicação dos passos que compõem o processo do KDD

Fonte: Adaptado de (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996).

Para Frawley et al (1992), a descoberta de conhecimento em bases de dados é

interpretada como um processo que automatiza a busca por padrões em um largo volume de

dados, essa busca por padrões visa adquirir o conhecimento que está omitido no dados brutos

que estão armazenados em uma base. O conhecimento obtido neste processo também pode ser

reutilizado futuramente como dados adicionais em pesquisas para descoberta de novos

padrões.

O processo por extenso do KDD é subdivido em nove passos, cada qual definindo uma

participação de suma importância para se alcançar o conhecimento implícito contido nos

dados analisados. A seguir são descritos cada passo que compõe o KDD (FAYYAD;

PIATETSKY-SHAPIRO; SMYTH, 1996).

a. Entendimento do domínio da aplicação: Este passo tem por objetivo distinguir o

objetivo do KDD a partir do ponto de vista do cliente;

b. Seleção: Cria-se um conjunto alvo de dados onde as descobertas de informações serão

realizadas;

c. Pré-processamento: Remove dados inválidos do conjunto caso seja necessário, define

estratégias para lidar com os dados omitidos;

d. Redução de dados: Métodos de transformação são utilizados para buscar características

que represente os dados de acordo com o objetivo da tarefa;

e. Método particular de mineração de dados: Visa buscar um dos métodos de

mineração tal como classificação, redução, sumarização, agrupamento, etc. para

alcançar os objetivos do KDD;

20

f. Análise explanatória: Após a escolha do método de mineração, decide-se qual modelo

e parâmetros poderão ser utilizados na busca por padrões de dados;

g. Mineração de dados: Busca por padrões de interesse em um conjunto particular de

representações, utilizado regras de classificação e árvores de regressão;

h. Interpretação dos dados minerados: Envolve visualização dos padrões extraídos dado

modelo de extração. Neste passo é possível retornar dos passos (a-g) supracitados para

iterações posteriores;

i. Descoberta de conhecimento: Utiliza o conhecimento abstraído dos dados analisados

em outro sistema ou simplesmente gera uma documentação sobre o mesmo para

posteriormente apresentar às partes interessadas.

2.3. Visualização de Dados

A ciência da representação visual de dados é interpretada como a informação abstraída

de modelos esquemáticos, onde são inclusos variáveis de unidades de informação. É uma

técnica vista por muitos estudiosos da área de estatística como sendo uma forma de

comunicação visual, pois a visualização em si não é baseada na pesquisa de um único valor,

mas sim pela interpretação de vários valores que compõem uma base de dados (FRIENDLY;

DENIS, 2009).

Como a taxa de geração de dados está em constante crescimento em bases de dados,

utilizar métodos de processamento, analise e interpretação sobre essas informações tem se

tornado um desafio para a visualização de dados. Para lutar contra esse desafio, surge o termo

de ciência de dados, que visa criar um significado para essa grande quantidade de dados

armazenados obtendo os mesmos em formato bruto, buscando entendê-los, processando-os,

extraindo informações dos mesmos e se comunicando com eles de forma visual. (PRESS,

2013).

O objetivo principal dessa técnica é a habilidade de analisar os dados divulgando a

informação clara e precisa. Isso não implica que a visualização tenha que ser complexa

demais ou possua um alto nível de sofisticação, ela apenas precisa ser funcional e elegante

para transmitir ideias efetivamente. A forma estética e funcional precisa fornecer a

compreensão necessária sobre um conjunto de dados difuso e complexo, comunicando os

aspectos dos dados de uma forma intuitiva (FRIEDMAN, 2008).

Segundo Marcelionis (2015) a visualização de dados está em crescimento atualmente.

A utilização de mapas e gráficos e a combinação de ambos estão mostrando que a transmissão

21

da mensagem pode ser mais profunda e mais eficiente do que apenas uma mera apresentação

de números, pois a visualização de dados é ao mesmo tempo arte e ciência.

O propósito da visualização de dados se baseia em dois princípios: um é a forma de

fazer com que informações abstratas façam sentido para quem estiver vendo e o outro é

comunicar essas informações de forma efetiva, pois informações abstratas não relatam os

dados como sendo algo tangível e a visualização de dados busca isso, embora os dados não

pertençam ao mundo físico, o foco é sempre dar forma para o que não tem, pois para termos

eficiência na visualização de dados precisamos seguir princípios derivados do entendimento

humano (FEW, 2013).

2.3.1. Perspectiva Humana da Visualização de Dados

Na perspectiva humana, uma tabela preenchida com números pode fazer com que uma

pessoa passe horas tentando entender o significado dos dados que estão presentes ali. Em

contrapartida, se esses dados forem exibidos de forma visual, essa pessoa irá perceber

imediatamente o significado dos mesmos, pois o entendimento fica óbvio com uma boa

ilustração gráfica desses números. A história dos dados pode ser mais bem interpretada

quando contada de forma gráfica em vez de ser contada de forma verbal (FEW, 2013).

Ainda segundo Few (2013), a visualização de dados age efetivamente nos sentidos

humanos, quando acontece uma mudança entre a percepção que é a intuição de aprender algo

por meio de estímulos sensoriais e a cognição que é um conjunto de processos mentais onde

um indivíduo adquire conhecimento através da percepção. Essa mudança entre cognição e

percepção visa utilizar o máximo possível das habilidades cerebrais para que o indivíduo

possa alcançar o conhecimento baseando-se no que ele vê.

No cérebro humano, o lobo frontal é responsável por várias funcionalidades exercidas

pelo ser humano, como: atenção e concentração, organização, expressão, personalidade,

emoções, ou seja, atividades relacionadas à cognição do indivíduo que lidam com a forma de

pensar do mesmo. O lobo cerebral localizado na parte traseira do cérebro lida com a

visualização e percepção do indivíduo. Este lobo, chamado de lobo occipital, age mais rápido

e eficientemente que o frontal, pois o mesmo opera unicamente o sentido da visão de modo

que a percepção ocorre rapidamente sem muitos esforços (NORENZAYAN; CHOI; PENG,

2007).

A forma como os humanos percebem e reagem a determinadas imagens produzidas

sobre informações de dados, influencia os mesmos no entendimento da entrada de novos

22

dados e como esses dados podem influenciar na produção de novas imagens. Deste modo, os

fatores humanos contribuem de forma significante para o processo de visualização, sendo

fundamentais na produção de ferramentas computacionais que auxiliem a visualização de

dados e a análise dos mesmos. Desta forma, a análise se torna mais fácil e eficiente quando

utilizado ferramentas que a auxiliem a visualização de dados (ALEXANDRE; TAVARES,

2010).

2.3.2. Diagramas para Visualização de Dados

A apresentação de dados em forma gráfica deve ser elegante e descritiva, existem

várias técnicas convencionais para a visualização dos mesmos, essas técnicas são utilizadas

em várias ocasiões para ilustrar dados de uma base. Essas técnicas de visualização são

conhecidas como gráficos de pizza, gráficos de barras, gráficos de combinação, gráficos de

coluna, gráficos de linha, entre outras (FRIEDMAN, 2007). As Figuras Figura 2 a Figura 6

ilustram gráficos com dados hipotéticos meramente ilustrativos.

O gráfico de pizza é um gráfico de estatística circular divido em fatias que representa a

proporção de seus valores numéricos, o tamanho do arco de cada fatia depende da quantidade

de dados que ele representa. Este gráfico tem mais de dois séculos de idade, sendo sua

primeira aparição feita em 1801, onde o mesmo era usado para dividir áreas, populações e

rendas de estados europeus (SPENCE, 2005). A Figura 2 ilustra um gráfico do tipo pizza, as

categorias descritas na imagem representam rótulos como, por exemplo, tipos de ocorrências

e os valores mostram a proporção em que cada tipo foi registrado.

Figura 2 – Gráfico de pizza

Fonte: Autoria própria

23

O gráfico de barras é utilizado na visualização de dados para representar valores

agrupados em categorias, ilustrando-os como barras verticais e horizontais. A proporção

desses valores é dada com base no comprimento que cada barra possui, quanto maior são os

valores, mais escalável serão as faixas que os representam no gráfico, de modo que elas

preencham do espaço do mesmo. O objetivo da utilização deste gráfico é produzir uma

comparação entre categorias de dados (ARCHARD, 1969). A Figura 3 ilustra um gráfico de

barras no estilo vertical e a Figura 4 ilustra um gráfico de barras no estilo horizontal.

Figura 3 – Gráfico de barras no estilo vertical

Fonte: Autoria própria

Figura 4 – Gráfico de barras no estilo horizontal

Fonte: Autoria própria

Ainda segundo University Of Leicester, os gráficos de barras agrupadas podem ser

usados para exibir subconjuntos de dados de cada categoria. Os gráficos de colunas agrupadas

podem ser utilizados também em forma vertical e horizontal, dependendo da natureza dos

24

dados que serão apresentados. A Figura 5 mostra um gráfico de barras agrupadas, os dados

das séries e categorias não condizem com valores reais, a categoria representa um conjunto de

valores como, por exemplo, o ano e as séries os tipos de ocorrências.

Figura 5 – Gráfico de barras agrupadas

Fonte: Autoria própria

Os gráficos de linha têm por função exibir informações utilizando séries de

marcadores conectados a um segmento de linha. O valor desses marcadores é ordenado pelos

dados do eixo „x‟ com os dados do eixo „y‟ e então é ligada uma linha entre esses marcadores

para mostrar a progressão dos valores obtidos. Os gráficos de linha podem ser utilizados para

analisar tendências em dados sobre o passar do tempo, de forma que a linha do gráfico seja

ilustrada cronologicamente (FRIENDLY, 2008). A Figura 6 ilustra um gráfico de linhas, as

categorias representam períodos e as séries o total de registros armazenados em cada período.

Figura 6 – Gráfico de linhas

Fonte: Autoria própria

25

2.3.3. Mapeamento Criminal com Pontos Quentes

A técnica hot spots (pontos quentes traduzido do inglês) é o processo de mapeamento

criminal de locais com a maior incidência de crimes. É um método utilizado para o auxílio à

tomada de decisão policial, onde o espaço criminal é demarcado em um mapa utilizando-se

uma cor codificada que se intensifica de acordo com a quantidade de marcações que ocorrem

no mesmo local. Este método tem como objetivo mostrar padrões de crimes baseando-se na

localização onde os mesmos ocorreram. Para cada tipo de crime, é criado um mapeamento em

uma escala de tempo que utilizam desde várias semanas até mesmo anos de ocorrências

criminais (MOHLER, 2014).

A Figura 7 ilustra o mapeamento criminal da área Urban Renewal da cidade de San

Francisco Califórnia utilizando o sistema de informações geográficas SpatialKey. O sistema

utiliza uma base de dados criminal local de 2002 com 14.653 registros de ocorrências

criminais. A área demarcada no mapa refere-se à região de Tenderloin, bairro da área central

da cidade (MCCUNE, 2009).

Figura 7 – Sistema de informação geográfica com pontos quentes

Fonte: (MCCUNE, 2009)

O mapeamento de pontos quentes é utilizado para a predição de crimes baseando-se na

análise retrospectiva de dados históricos, identificando-se áreas com o maior teor de crimes,

possibilitando que recursos aprimorados no combate ao crime sejam implantados em pontos

26

estratégicos com mais eficiência. Pesquisas na área de mapeamento criminal mostram que a

utilização de técnicas de visualização como mapeamento de pontos quentes, elipse espacial,

grade de mapeamento temático, KDE (Kernel Density Estimation) facilitam o uso e a

interpretação espacial da localização, tamanho, forma e orientação de grupos de incidentes

criminais (CHAINEY; TOMPSON; UHLIG, 2008).

No procedimento de mapeamento é utilizada uma base histórica de dados para prever

o risco de futuras insurgências em determinadas áreas de uma região, este método

fundamenta-se no fato de que crimes não são distribuídos de forma uniforme e busca

identificar as áreas com o maior volume de crimes. Recursos e intervenções adaptadas a um

determinado tipo de crime podem ser delegados para locais com maior incidência criminal no

objetivo de intervir crimes específicos (PERRY et al, 2013).

Este procedimento é mais amplamente utilizado para se obter o conhecimento da

quantidade dos riscos de crimes que poderão ocorrer futuramente em um determinado tempo e

local. Adquirindo o conhecimento que esta técnica fornece, unidades policiais podem traçar

estratégias no combate ao crime utilizando-se das ocorrências marcadas dos crimes passados

que, com o passar do tempo, formam grupos criminais onde insurgências possam ocorrer no

futuro (MOHLER et al, 2012).

Esses grupos históricos de insurgências em locais com os maiores índices de

incidências criminais baseiam-se nos métodos estatísticos como forma mista de modelos e

também na estimação por densidade. Embora muito utilizado, esta técnica não acrescenta

variáveis como fatores ambientais que podem ser vitais na busca por padrões que indiquem a

predição de futuros crimes (WANG; BROWN; GERBER, 2012).

Técnicas de aprimoramento do mapeamento de pontos quentes como o KDE utiliza

uma função de densidade probabilística em espaço tridimensional para criar registros

históricos sobre crimes ocorridos. Esta técnica permite que unidades competentes no combate

ao crime rapidamente analisem e identifique as áreas com a maior concentração de crimes

(GERBER, 2014).

2.3.4. Análise de Séries Temporais

Análise de séries temporais resume-se a uma sequência de valores ou eventos obtidos

sobre as medidas repetidas do tempo, consistindo de sequências de eventos ordenados, com

ou sem noção do tempo (HAN; KAMBER, 2011). Em dados de séries temporais, cada

27

instância representa um diferente passo temporal e os atributos concedem valores associados a

esse tempo (HALL; WITTEN; FRANK, 2011).

Uma série temporal constitui uma classe popular de dados sequenciais onde os

registros de dados são indexados pelo tempo. Caso não haja noções de tempo em uma base de

dados, a ordem entre os registros é vital para descrição e modelação dos mesmos. Existe uma

pequena diferença entre sequência temporal e séries temporais, as sequências temporais

incluem coleções de dados ordenados, porém não datados em suas amostras e as séries

temporais são elementos de séries contínuas datadas e definidas como uma sequência de pares

assim como mostra a Equação (1) (KANTARDZIC, 2011).

([ ] [ ] [ ]) ( )

Onde

T = Série temporal.

p = Registros.

t = Tempos onde

Um dos aspectos da visualização de dados em séries temporais concentra-se em

análises de tendências. As análises de tendências consistem em quatros componentes ou

movimentos que caracterizam os dados, encontram padrões e possibilitam as pessoas que

estão vendo o gráfico uma possível predição de valores futuros. Os quatro movimentos que

compõem as séries temporais são: movimentos ou tendências de longo termo, movimentos ou

variações cíclicas, movimentos ou variações sazonais e movimentos aleatórios ou irregulares

(HAN; KAMBER, 2011).

Os movimentos ou tendências de longo termo consistem na estimação de tendências

de longo tempo (KANTARDZIC, 2011). A linha tracejada na Figura 8 ilustra a direção em

que o gráfico de séries temporais está se movendo ao longo do intervalo temporal.

Figura 8 – Tendência de longo termo

Fonte: adaptado de (KANTARDZIC, 2011).

28

Os movimentos ou variações cíclicas representam o comportamento dos padrões de

dados que é observado de forma cíclica (DUNHAM, 2003). A linha tracejada na Figura 9

ilustra oscilações na linha de tendências.

Figura 9 – Variações cíclicas

Fonte: adaptado de (KANTARDZIC, 2011).

Os movimentos ou variações sazonais são movimentos relacionados ao calendário.

Geralmente incluem eventos que ocorrem anualmente como, por exemplo, o aumento na

venda de chocolates antes do dia dos namorados ou a queima de estoque no período de Natal

(HAN; KAMBER, 2011). A Figura 10 ilustra padrões aproximadamente idênticos durante

meses correspondentes de sucessivos anos.

Figura 10 – Variações sazonais

Fonte: adaptado de (KANTARDZIC, 2011).

Movimentos aleatórios ou irregulares (Outliers) são movimentos irregulares que

representam discrepâncias (KANTARDZIC, 2011). A Figura 11 ilustra o movimento

esporádico de séries temporais devido a eventos irregulares ou aleatórios.

29

Figura 11 – Movimentos irregulares

Fonte: adaptado de (KANTARDZIC, 2011).

2.4. Integração do KDD com a Visualização de Dados

Devido à dificuldade enxergada na complexidade de dados brutos, usar esses dados de

forma que traga uma solução compreensiva para quem os analisa, exige o entendimento de

diversas áreas como: estatísticas, mineração de dados, design gráfico e visualização de

informações. Cada área é operada isolada das outras. Como técnicas visuais não facilitam o

trabalho análise com dados brutos, técnicas de mineração de dados tem mais habilidades para

fazer tal serviço, porém estão distante de uma forma plausível de interação com os dados

analisados. As visualizações de dados produzidas em softwares ajudam na interação entre o

ser humano e as análises, pois as mesmas possibilitam a representação de vários tipos de

dados abstratos em formato de gráficos (FRY, 2007).

Técnicas interativas de visualização são aplicadas junto ao KDD com sucesso. Na área

de estatísticas gráficas e interativas, a visualização de dados combina várias técnicas visuais,

como gráficos de barras e gráficos de linha, para relacionar objetos gráficos de uma janela de

software com objetos gráficos em outra janela do mesmo do software ou afins. Em vários

casos de visualização, os usuários podem encontrar padrões nas representações gráficas, como

agrupamentos locais e linhas concorrentes. Devido às capacidades visuais bem estabelecidas,

fica bem mais legível ao analista detectar tais padrões em visualizações gráficas do que em

dados numéricos brutos (FELDMAN; KLÖSGEN; ZILBERSTEIN, 1997).

Ainda segundo Feldman; Klösgen; Zilberstein (1997), técnicas visuais são usadas

dentro do processo KDD em tarefas de pré-processamento para que haja uma familiarização

com os dados de uma base detectando as dependências entre as variáveis. Essas introspecções

são usadas então para focar em tarefas de mineração de dados, como por exemplo, selecionar

variáveis identificadas para uma tarefa. A visualização serve para mostrar os resultados da

30

mineração de dados, de forma interativa, para que os analistas possam iteragir com as

visualizações.

O KDD age como um framework1 sistemático dentro do conceito de visualização de

dados, visando guiar a exploração de informações e a descoberta de conhecimento. A

visualização tem um importante papel no processo do KDD, pois a mesma fornece duas

camadas em que uma mantém um alto grau de interatividade e feedback2 com o usuário,

enquanto a outra é beneficiada sincronicamente com a utilização de buscas na base de dados,

agindo ambas as camadas em simultânea cooperação (FOONG, 2001).

Nesse processo de descoberta de conhecimento em bases de dados, existe uma

conciliação entre as áreas de design e análise de dados, que buscam unificar todo o processo.

Profissionais na área de design gráficos buscam conhecimento nas ciências computacionais

para aprimorar as técnicas de visualização de dados e estatísticos transmitem os dados de

forma mais efetiva devido compreender os princípios de design visual que operam por trás da

representação dos dados (FRY, 2007).

Fry (2007) enfatiza o processo de compreensão de conhecimento como um conjunto

de medidas a serem tomadas no processo do KDD, embora não seja necessário seguir todas

elas diretamente. As medidas são:

Seleção: Obter alguma forma ou significado para um determinado conjunto de dados

que serão utilizados durante o processo e ordenar o mesmo em classes.

Filtragem: Remover todas as variáveis desnecessárias para a busca de conhecimento

nas tabelas da base dados deixando apenas as que contêm dados de interesse.

Visualizar: Aplicar métodos de visualização de dados para buscar padrões e formas

que serão apresentadas visualmente.

Refinar: Aperfeiçoar a representação visual frisando a claridade dos dados de forma

mais atraente para o analista.

Interagir: Adicionar funcionalidades que possam alterar os dados da análise tornando

a visualização mais dinâmica.

Entre essas medidas existem conexões importantes que mostram a importância de cada

uma em todo o processo da descoberta de conhecimento. O seguimento cordial do KDD leva

a uma analogia com uma linha de montagem, onde analistas lidam com os processos de

1 Conjunto de códigos em comum que fornece funcionalidades abstratas.

2 Reação a um estímulo. 2 Reação a um estímulo.

31

obtenção, filtragem e busca de dados e os profissionais de design lidam com a apresentação

dos mesmos (FRY, 2007).

2.5. Trabalhos relacionados

No trabalho de Henriques (2014) foram aplicados métodos quimiométricos no

tratamento da informação multivariada relativa a estatísticas criminais, sobre uma variedade

de dados relacionados à detenção e delitos cometidos nos EUA durante o período de 2005 a

2011. Os resultados da pesquisa mostraram que a combinação de métodos quimiométricos

como análise de agrupamentos hierárquico e análise de componentes principais junto com

medidas econométricas como curva de Lorenz e coeficiente de Gini permitiu tirar conclusões

sobre a distribuição e relação espácio-temporal de vários tipos de crimes.

No trabalho de Guillen (2015), foi aplicada uma metodologia para geocodificar os

endereços de ocorrências criminais para a análise espacial da distribuição espacial dos crimes

através da estatística espacial. A metodologia seguiu quatro etapas sendo a primeira uma

análise explanatória dos dados, a segunda uma análise de densidade criminal, a terceira uma

análise do impacto da geocodificação e a quarta uma correlação espacial entre a intensidade

da distribuição criminal e os locais de baixa renda. Os resultados da pesquisa foram

importantes no auxílio da estatística espacial criminal e no estudo de padrões e compreensão

dos crimes.

O trabalho de Da Silva et al (2014) tinha por objetivo estudar, analisar e compreender

a dinâmica socioespacial e da violência urbana em Belém-PA, com foco nos bairros da 12ª

Área Integrada de Segurança Pública e Defesa Social (AISP) nos períodos de 2011 e 2013.

Foi utilizada a produção cartográfica como ferramenta de auxílio na visualização dos pontos

de homicídios, que são a variável criminológica selecionada, para estudar o comportamento

criminal na área.

O trabalho de Perazzoni (2013) tinha por objetivo demonstrar que as tecnologias de

Sistemas de Informações Geográficas (SIG), ainda pouco conhecidas no meio policial, podem

e devem se revestir em importante aliadas às ações de investigação e repressão a ilícitos

relacionados ao desmate ilegal no interior de áreas protegidas na Amazônia. Pois, dada a

grande extensão da Amazônia, o uso de imagens de satélites assim como recursos de

modelação e análise de informações espaciais e não espaciais resultou em valioso meio

investigativo sobre o andamento do desmatamento da floresta.

32

3. METODOLOGIA

3.1. Procedimento Metodológico

O presente trabalho visa utilizar técnicas de visualização de dados para obter a

representação visual dos dados policiais de boletins de ocorrências armazenados na base de

dados da central de Polícia Militar do município de Caicó-RN. Esses dados foram abstraídos

de forma esquemática, de maneira que se incluíssem todas as variáveis possíveis das tabelas

para uma melhor interpretação dos mesmos, dado que nem todos os campos foram utilizados,

porém foram de grande valia para a obtenção de informações úteis para as análises.

Os dados criminais que foram utilizados neste trabalho, para as análises e buscas por

informações plausíveis visando o apoio à tomada de decisão policial, foram obtidos da base

de dados do sistema da COPOM. Esta base de dados está localizada na central de ocorrências

da Polícia Militar da cidade de Caicó-RN e detém registros de ocorrências criminais local nos

anos de 2008 a 2014. A base de dados da COPOM, adquiridas no período em que esta

pesquisa se iniciava em 2015, possui um grande volume de dados sobre as ocorrências

criminais que ocorreram na região durante os anos de 2008 e 2014. Na base de dados

encontra-se um total de 37.554 registros de ocorrências que aconteceram nesse período.

3.2. Tipo de Pesquisa

Este trabalho trata-se de uma pesquisa exploratória onde foram estabelecidos métodos,

parâmetros e técnicas para a visualização de dados visando a descoberta de informações úteis,

que venham propiciar aos analistas, uma melhor interpretação na análise dos dados através da

visualização gráfica das estatísticas criminais, onde essas visualizações serão utilizadas para o

apoio à tomada de decisão no combate ao crime de Caicó/RN. O método de pesquisa segue

uma abordagem quantitativa, pois se trata da aplicação de técnicas visuais em um grande

volume de dados, onde os resultados obtidos serão de contribuição ampliada sobre o

conhecimento adquirido, considerando-se uma viável opção para que outros pesquisadores

compartilhem do mesmo conhecimento.

3.3. Amostragem da Pesquisa

Foram utilizados os processos de seleção, transformação, visualização e interação do

KDD sobre os dados recolhidos na base como, por exemplo, obter o conhecimento do

domínio onde foram aplicadas as técnicas de visualização de dados, selecionar o conjunto de

dados alvo para análise, fazer limpeza para remoção de dados desnecessários à visualização,

33

transformar valores em expressões abstratas e numéricas. Então foram aplicadas as técnicas

visuais supracitadas sobre a base de dados de ocorrências de crimes locais, possibilitando

adquirir informações que levem ao reconhecimento de padrões nos dados pesquisados,

facilitando a identificação de quais crimes mais ocorreram na região e quais setores da cidade

possuem os maiores índices de violência.

O universo da pesquisa foi baseado nos registros de ocorrências criminais no período

entre 2008 e 2014, a base em si contém várias tabelas em sua estrutura, porém apenas a tabela

event será utilizada durante a coleta dos resultados, pois a mesma contém a junção de todas as

demais tabelas da base de dados. O banco de dados utilizado foi o PostgreSQL, um sistema de

gerenciamento de bancos de dados objeto relacional de código aberto que está em

desenvolvimento ativo há mais de quinze anos (POSTGRESQL3).

A base de dados da COPOM é composta por vários campos que compõem a estrutura

do formulário para a coleta dos dados das ocorrências criminais, esses dados representam

valores como a data da ocorrência, o bairro onde aconteceu a ocorrência, tipo da ocorrência,

coordenadas geográficas, entre outros. Durante o procedimento de pré-processamento do

KDD, alguns dados que foram irrelevantes para a pesquisa como, por exemplo, o nome do

interessado e o telefone do mesmo, foram descartados de forma que apenas os valores

necessários componham a estrutura básica e necessária que foram visualizados em gráficos,

utilizando as técnicas de visualização de dados. A Tabela 1 mostra uma pequena parte da

estrutura da tabela event, onde são mostradas algumas informações importantes que serão

utilizadas durante o processo de busca e exibição. Os dados contidos nela foram adquiridos

utilizando a seguinte SQL (Structured Query Language4) no banco de dados:

select

idcodigo_eve,

idcodigotip_eve,

idbairro_eve,

datareg_eve,

latitude,

longitude

from event limit 100 offset 1000;

3 Disponível em: < http://www.postgresql.org/about/>. Acesso em: abr. 2016. 4 Linguagem de busca padrão utilizada por bancos de dados relacionais.

34

Tabela 1 – Dados selecionados que compõem a base de dados da COPOM

idcodigo_eve idcodigotip_eve idbairro_eve datareg_eve latitude longitude

28530 66 10 17-08-2013 -6.45860 -37.10742

28552 62 13 18-08-2013 -6.45996 -37.09368

28592 66 15 19-08-2013 -6.47391 -37.09734

28648 159 7 22-08-2013 -6.46016 -37.09497

28703 211 10 08-24-2013 -6.45691 -37.10753

28708 120 16 08-25-2013 -6.44992 -37.09248

57 163 45 03-31-2008

28716 66 16 08-25-2013 -6.44783 -37.0916

28775 120 15 08-29-2013 -6.45996 -37.0936

28788 109 7 08-30-2013 -6.45976 -37.0954

Fonte: Autoria própria

3.4. Tecnologias Utilizadas

Neste trabalho foram utilizadas as tecnologias de mapas da Google para obter os

resultados visuais que pudessem auxiliar os resultados obtidos da presente pesquisa, essas

tecnologias foram selecionadas pela facilidade encontrada na integração delas com as

linguagens de programação Java e PHP. Ambas as linguagens de programação foram

escolhidas por serem as mais populares segundo o rank anual da TIOBE5, sendo Java a

linguagem desktop mais popular e PHP a linguagem web mais popular.

3.4.1. Google Maps API 3

A API (Application Programming Interface) de mapas da Google foi introduzida em

meados de 2005 com o objetivo de revolucionar a interação dos usuários com mapas digitais

na web, permitindo que os mesmos pudessem navegar sobre o mapa mundial apenas com o

mouse do computador, isso foi uma inovação no período. A API de mapas continuou sendo

atualizada pela empresa até que maio de 2009, na conferência Google I/O, a API versão 3 foi

anunciada e em maio de 2010 a biblioteca foi oficializada estável após um ano de teste beta

(SVENNERBERG, 2010).

Ainda segundo Svennerberg (2010), a biblioteca de mapas utiliza em seus mecanismos

internos a linguagem de marcação de texto HTML (HyperText Markup Language), a

linguagem de programação para navegadores JavaScript assim como a linguagem de folhas

5 Disponível em: < http://www.tiobe.com/tiobe_index>. Acesso em: mai. 2016.

35

de estilo CSS (Cascading Style Sheets) para trabalhar com a parte visual, essas tecnologias

trabalham juntas. As imagens do mapa são carregadas dinamicamente no fundo da aplicação,

via chamadas Ajax, assim que o usuário interage diretamente nas localidades do mapa.

Chamadas Ajax são chamadas assíncronas feitas ao servidor da Google de forma que não haja

a necessidade de carregar toda a página web onde o mapa se encontra. A Figura 12 ilustra o

mapa da Google inserido em uma página HTML sendo o centro do mesmo a cidade de Caicó.

Figura 12 – Google Maps API aplicada em uma página HTML

Fonte: Autoria própria

3.4.2. Google Maps Geocoding API

A API de geocodificação da Google compõe a biblioteca de mapas padrão e trabalha

com a conversão de dados em formato de endereço de ruas no estilo (Av. Cel. Martiniano,

670) e o transforma em coordenadas geográficas divididas em valores do tipo flutuante

chamados de latitude e longitude (-6.467016, -37.089415). Para utilizar essa API é necessário

obter uma chave de autenticação ligada a uma conta da Google, com isso o sistema pode

monitorar a quantidade de requisições feitas diariamente por conta, dando um limite de 5.000

requisições por dia. Passando desse limite, as requisições são bloqueadas pelo sistema.

O formato exigido pela API de geocodificação nas requisições feitas em aplicações

segue a seguinte estrutura: http://maps.googleapis.com/maps/api/geocode/output?parameters

onde “http://maps.googleapis.com/maps/api/geocode” representa a URL (Uniform Resource

Locator) onde fica hospedado o serviço do Google Geocoding, o output é formato desejado

de retorno do serviço como XML (eXtensible Markup Language) ou JSON (JavaScript

Object Notation), e parameters são os dados utilizados para realizar a pesquisa dos locais das

36

ocorrências, utiliza-se o endereço de uma rua para buscar as coordenadas da mesma ou

utiliza-se as coordenadas para adquirir o endereço da rua que as representa, fazendo assim

uma geocodificação inversa.

3.4.3. Google Charts

A API de gráficos da Google fornece uma variada gama de ferramentas para a

visualização e estatística de dados, utilizando desde um simples gráfico de linhas até mapas de

árvores hierárquicas complexas, a galeria de gráficos contidos nessa API prover um grande

número de tipos de gráficos diferentes disponíveis para serem usados em aplicações variadas.

A API segue o mesmo esquema da API de mapas onde os gráficos são inseridos dentro das

páginas HTML.

A forma mais simples para utilizar a biblioteca Google Charts é mediante o uso da

linguagem JavaScript embutida na página da aplicação, carrega-se as dependências da API,

lista os dados que serão utilizados na geração dos gráficos, seleciona as opções que irão

customizar a forma como os gráficos serão exibidos, então cria o gráfico baseado nessas

informações e o insere na página HTML para ser visualizada as estatísticas.

Gráficos são altamente interativos, em relação aos dados que eles representam,

expondo os eventos que permite aos usuários interagirem na criação de dashboards

complexas assim como outras experiências integradas em uma página web. A API da Google

utiliza tecnologia SVG (Scalable Vector Graphics) integrada com HTML5, que é a

atualização mais recente da linguagem de marcação, para fornecer uma compatibilidade e

portabilidade multi-plataforma para a utilização da mesma em diferentes tipos de dispositivos

tecnológicos.

3.4.4. Linguagens e Ferramentas

3.4.4.1. Java

Java é uma linguagem de programação orientada a objetos utilizada no

desenvolvimento de aplicações móveis, web e desktop. Ela foi desenvolvida inicialmente pela

Sun Microsystems na década de noventa sendo vendida à Oracle em 2009. A linguagem tinha

por objetivo portabilizar as aplicações desenvolvidas, fazendo com que as mesmas pudessem

ser executadas em qualquer sistema operacional, seguindo a seguinte regra de independência:

“escreva uma vez, execute em qualquer lugar”, traduzida do inglês: “write once, run

anywhere”. A linguagem é disponibilizada gratuitamente com uma vasta quantidade de

37

bibliotecas que auxiliam os desenvolvedores no processo de construção de softwares

(NAUGHTON, 1996).

3.4.4.2. PHP

A linguagem de programação PHP (Hypertext Preprocessor), é uma linguagem

disponibilizada gratuitamente assim como Java, ela é interpretada e não compilada sendo

utilizada no lado do servidor para a construção de páginas Web. Essa linguagem de

programação tem por objetivo construir páginas HTML dinamicamente de forma que, a cada

requisição feita ao servidor, seja retornada uma estrutura diferente de HTML para o cliente de

acordo com o que ele está interagindo no sistema.

A origem da linguagem foi em 1994, criada por Ramus Lerford. No início ela era

chamada de Personal Home Page Tools sendo renomeada para Hypertext Preprocessor

posteriormente. A linguagem era voltada para a geração dinâmica de páginas que o próprio

criador da linguagem utilizava para monitorar o acesso a seus currículos na internet. Com o

passar do tempo, novos recursos foram adicionados pelo criador da linguagem como a

conexão com bancos de dados, em 1995 o código fonte passa a ser livre fazendo com que

vários outros programadores pudessem dar crescimento e continuação à linguagem

(DALL‟OGLIO, 2015).

38

4. ANÁLISE DOS RESULTADOS OBTIDOS

Os resultados deste trabalho foram adquiridos mediante a aplicação das técnicas de

visualização de dados sobre a base dados da COPOM, seguindo determinados processos do

KDD desde a seleção dos dados até a utilização das técnicas visuais. Essas técnicas foram

aplicadas sobre esta base com o objetivo de adquirir conhecimento útil e auxiliar a tomada de

decisão policial de Caicó-RN. A seleção dos dados, a transformação dos mesmos, a aplicação

das técnicas de visualização e estatísticas desses dados, utilizando as tecnologias supracitadas

das APIs da Google são os processos relevantes para a obtenção do conhecimento útil que

este trabalho obteve.

A base de dados da COPOM contém uma tabela principal chamada event, essa tabela

contém os dados principais das ocorrências criminais assim como referências para outras

tabelas que se relacionam com a mesma. A Tabela 2 mostra todas as colunas que a tabela

event possui assim como o tipo de dados que as representa como integer (número inteiro),

string (texto), date (data do ano) e char (caractere) e double (número real).

Tabela 2 – Todas as colunas que compõem a tabela event

atributos tipo de atributo coluna tipo

idcodigo_eve integer horaenv_eve string

controle_eve string horades_eve string

localidade_eve string horacheg_eve string

pontoreferencia_eve string horafin_eve string

interessado_eve string grupo_eve string

telefone_eve string datareg_eve date

idcodigotip_eve integer terminadesp_eve string

naturezatip_eve string usuariodesp_eve string

idcodigosbt_eve integer idcodigovtr_eve integer

historico_eve string vtr_eve string

idbairro_eve integer cmtvtr_eve string

descricaobai_eve string providencia_eve string

idcodigomunicipio_eve integer idcodigofinalizacao_eve integer

municipio_eve string finalizacao_eve string

terminalate_eve string event_eve string

usuarioate_eve string historicofinal_eve string

enviada_eve string usuariofin_eve string

usuarioenv_eve string latitude double

horareg_eve string longitude double

Fonte: Retirado da base de ocorrências criminais da COPOM

39

No processo de seleção de dados da tabela event, apenas algumas colunas foram

selecionadas para a aplicação das técnicas de visualização, esses dados são essenciais para

pesquisa porque possui valores não relacionados diretamente com os dados pessoais dos

envolvidos na ocorrência e são dados úteis para serem visualizados e analisados em gráficos.

Por questão de sigilo, dados pessoais como o interessado no evento interessado_eve, o

telefone do mesmo telefone_eve, usuários do sistema usuarioenv_eve e usuariofin_eve,

finalização finalizacao_eve, entre outros, foram descartados nesse processo por não

condizerem com o interesse da pesquisa. A Tabela 3 mostra apenas os dados que foram

utilizados para a aplicação das técnicas visuais.

Tabela 3 – Dados selecionados para aplicação das técnicas de visualização

coluna tipo Descrição

idcodigo_eve integer Código da ocorrência.

localidade_eve string Localidade da ocorrência.

idcodigotip_eve integer Código do tipo de ocorrência.

naturezatip_eve string Natureza do tipo de ocorrência.

idbairro_eve integer Código do bairro aonde aconteceu a ocorrência.

descricaobai_eve string Descrição do bairro onde aconteceu a ocorrência.

municipio_eve string Descrição do município da ocorrência.

datareg_eve date A data da ocorrência.

latitude double Coordenada de latitude.

longitude double Coordenada de longitude

Fonte: Autoria própria

Após a seleção dos dados que foram compostas as buscas no banco de dados para

aplicar as técnicas de visualização, foram realizadas tarefas de pré-processamento para tratar e

remover dados ilegíveis e inutilizáveis contidos na tabela. O processo de transformação de

dados foi aplicado também para adquirir as coordenadas geográficas das ocorrências. Em cada

ocorrência registrada na base de dados, continha um valor que representava o endereço físico

do evento, como por exemplo, Av. Cel. Martiniano.

Foi então elaborado um algoritmo na linguagem de programação Java para obter o

valor da coluna localidade_eve e o valor da coluna municipio_eve e enviar à API de

geocodificação de mapas da Google, e assim adquirir as coordenadas geográficas de cada

ocorrência em valores numéricos. Como mostra a Tabela 3, a latitude e a longitude, que

representam as coordenadas, são números reais e foram obtidos mediante o uso da Google

40

Maps Geocoding API utilizando a localidade da cada ocorrência. O valor da coluna

município_eve deveria coincidir com a palavra “CAICÓ”, isso para restringir as ocorrências

registradas apenas no município, algumas ocorrências de municípios próximos foram

descartadas. A URL utilizada na API para a busca das coordenadas seguiu o seguinte

esquema:

http://maps.googleapis.com/maps/api/geocode/json?address="endereço"+

Caicó+-+RN"

Onde o tipo de retorno escolhido foi JSON e o escopo da busca seria apenas no

município de Caicó para evitar a busca por endereços não condizentes com a cidade,

conforme é possível verificar no “APÉNDICE A”

A base de dados tinha um total de 37554 registros de ocorrências criminais onde

36272 eram ocorrências do próprio município no período de sete anos entre 2008 e 2014, as

ocorrências restantes pertenciam a municípios vizinhos que foram registradas no sistema da

COPOM e de ocorrências sem uma localidade descrita. A base de dados da COPOM continha

muitos valores errados na localidade das ocorrências como “"KJHGF" e “AAAAA” que

tornava impossível a busca das coordenadas geográficas desses incidentes. Algumas

localidades eram descritas como bares e próximas a mercados não cadastrados na Google,

essas ocorrências também não contaram no processo de transformação.

Houve uma perda expressiva na transformação dos valores de endereços físicos em

coordenadas geográficas numéricas de ilegibilidade de algumas ocorrências. A Tabela 4

mostra a quantidade de ocorrências válidas e inválidas que foram tratadas na base de dados.

Tabela 4 – Total de ocorrências válidas e inválidas na base da COPOM

ano total válidas inválidas

2008 2779 757 2022

2009 3491 1177 2314

2010 5461 1599 3862

2011 5006 1705 3301

2012 5770 4087 1683

2013 6690 4784 1906

2014 7075 4652 2423

Total 36272 18761 17511

Fonte: Autoria própria

41

Como mostra a Tabela 4, tivemos 51,72% das ocorrências válidas e 48,28% das

ocorrências inválidas no total. A API de geocodificação de mapas da Google foi utilizada para

dar apoio à aplicação da técnica de mapeamentos de pontos quentes baseando-se nos valores

numéricos das coordenadas geográficas. A técnica de mapeamento de pontos quentes foi

aplicada utilizando a tecnologia de mapeamento da Google versão 3, com esta tecnologia é

possível agrupar sobre o mapa da cidade de Caicó todas as ocorrências válidas que foram

adquiridas com a API de geocodificação, cada ponto quente pintado na camada do mapa

representa os valores de latitude e longitude de cada ocorrência. A Figura 13 ilustra a técnica

de mapeamento de pontos quentes sendo aplicada sobre a zona central, zona leste e oeste do

município, todas as 18761 ocorrências criminais válidas foram agrupadas, independente da

natureza de cada insurgência.

Figura 13 – Mapeamento de pontos quentes entre 2008 e 2014 na cidade de Caicó

Fonte: Autoria própria

Quanto mais as ocorrências vão sendo mapeadas juntas umas das outras, a intensidade

dos pontos vai tomando uma cor mais intensa na camada de visualização da API de mapas,

mostrando que aquela zona teve um aumento expressivo na intensidade de ocorrências dentro

dos sete anos de armazenamento. Na Figura 13 é possível ver alguns pontos intensos em

várias regiões da cidade, isso se dar devido a uma grande parte das ocorrências não conterem

o número do imóvel próximo aonde ocorreu o crime, tendo apenas nome da rua ou avenida

como Av. Seridó, fazendo com que a localidade seja mapeada em um único ponto.

42

A intensidade da temperatura no mapeamento de pontos quentes também é dada pela

ampliação aplicada sobre o mapa, quanto mais próximo maior a dispersão dos pontos sobre as

ruas da cidade e quanto mais distante, a visibilidade tende a se tornar homogênea impedindo

que o usuário tenha uma interpretação melhor sobre a distribuição criminal. A Figura 14

ilustra a ampliação interna máxima do mapeamento de pontos quentes sobre o centro da

cidade de Caicó, na Figura é possível ver claramente a centralização da marcação dos pontos

sobre determinadas áreas da rua da cidade, os pontos mais afastados desses centroides são

ocorrências que continham o número da casa mais próxima onde ocorreu o delito.

Figura 14 – Ampliação do mapa sobre o centro de Caicó

Fonte: Autoria própria

As esferas mais intensas na Figura 14 mostram que as ocorrências criminais não

possuíam dados o suficiente sobre a localidade para que a técnica de pontos quentes tivesse

uma distribuição mais abrangente sobre as avenidas da cidade. Da Figura 15 até a Figura 21 é

ilustrado a distribuição criminal anual que ocorreram em todo o período de 2008 a 2014 na

cidade de Caicó, todo o procedimento ilustrado nas imagens foi baseado o número de

43

ocorrências de 2008 e sendo somado a cada ano posterior a este, de modo que a distribuição

vai tomando mais proporções com o passar dos anos.

Na Figura 15, percebe-se que no mapeamento do ano de 2008 houve poucos registros,

muitas ocorrências foram descartadas devido ao sistema da COPOM ainda estar nas fases

iniciais.

Figura 15 – Distribuição criminal de 2008

Fonte: Autoria própria

Na Figura 16 é possível identificar um possível deslocamento criminal para as zonas

norte e oeste da cidade tendo pouco menos ocorrências na zona central do que nessas zonas.

Figura 16 – Distribuição criminal até 2009

Fonte: Autoria própria

44

Na Figura 17 percebe-se um acentual aumento de ocorrências em todas as zonas da

cidade, a zona central passa a ter um registro bem maior do que nos anos anteriores.

Figura 17 – Distribuição criminal de 2010

Fonte: Autoria própria

Na Figura 18 é detectável um aumento gradativo na zona oeste da cidade assim como

um agravamento na zona sul.

Figura 18 – Distribuição criminal de 2011

Fonte: Autoria própria

45

Observando a Figura 19 e a Figura 20, é notório um leve crescimento da distribuição

criminal na zona leste, tendo um agravamento nas demais zonas.

Figura 19 – Distribuição criminal de 2012

Fonte: Autoria própria

Figura 20 – Distribuição criminal de 2013

Fonte: Autoria própria

46

Figura 21 – Distribuição criminal até 2014

Fonte: Autoria própria

Na Figura 21 vemos a soma total de todos os anos posteriores mais o ano de 2014 em

um só mapa, a intensidade se agrava bastante em todas as áreas da cidade, tendo uma

distribuição maior na zona oeste e uma intensificação dos crimes na zona central da cidade

assim como também no centro da zona norte da cidade.

Seguindo esse mesmo arquétipo de visualização da distribuição criminal com a técnica

de pontos quentes, foram selecionadas as ocorrências de apenas um dos sete anos para a

visualização mensal dos crimes registrados no mesmo. Como foi mostrado o crescimento e o

deslocamento criminal dos sete anos, houve a necessidade da exibição da distribuição dos

crimes na região em pelo menos um desses sete anos. O ano selecionado foi 2013, como

mostra a Tabela 4, foi o ano com o maior índice de ocorrências criminais válidas, por terem os

valores de latitude e longitude obtidos com a API de geocodificação da Google, o ano de 2013

teve 4784 ocorrências válidas no total. Da Figura 29 até a Figura 40 são ilustrados o

crescimento e a expansão dos crimes nas zonas do município de Caicó de janeiro a dezembro

de 2013, conforme é possível verificar no “APENDICE B”.

Percebe-se que com o passar dos meses a distribuição criminal vai se expandindo de

forma bem sutil, de maneira que nos últimos meses fica difícil distinguir as pequenas

alterações no mapa, quando é feita a comparação de uma imagem de um determinado mês

com a imagem do mês anterior. Ampliando as imagens do mapa é possível ter mais clareza

para detectar essas diferenças nos últimos anos.

47

Com essa técnica de mapeamento de pontos quentes é possível detectar de forma

objetiva para quais áreas da região do município os crimes vão se expandindo, isso possibilita

que os policiais militares e tomadores de decisão possam ter uma visão ampla sobre quais

bairros estão sendo mais atingidos e em quais períodos do ano esse deslocamento criminal

acontece, pois existem períodos festivos na cidade que podem facilitar que alguns delitos

venham a acontecer com mais frequência.

A Figura 22 ilustra um gráfico do tipo de pizza onde é possível visualizar os tipos de

ocorrências com os maiores índices no período de 2008 a 2014, percebe-se que a perturbação

do sossego alheio lidera com 28,2% de todos os delitos ocorridos na cidade durante esse

período, da mesma forma segue-se o delito de pessoas em atitude suspeita, acidentes de

trânsito, entre outros. A estatística é baseada no total das ocorrências, independente se essas

ocorrências possuem os valores de latitude e longitude ou não.

Figura 22 – Os dez tipos de ocorrências criminais com maior frequência

Fonte: Autoria própria

A Figura 23 mostra o total de ocorrências criminais que foram registradas no período

de 2008 a 2014, independente do tipo dessas ocorrências ou se elas possuem valores de

coordenadas geográficas. Verifica-se que nos três primeiros anos o total de incidências teve

um crescimento de 15% entre os anos de 2008 e 2009 e um crescimento maior de 51% entre

os anos de 2009 e 2010. No ano de 2011 é captada uma queda de 7% em relação ao ano

anterior e um aumento gradativo superior ao ano de 2010 a partir do ano de 2012. Entre os

anos de 2008 e 2014 houve um diferencial de 131%, ou seja, o último ano mais que dobrou

em relação ao primeiro ano de registros de ocorrências criminas.

48

Figura 23 – Total de ocorrências criminais entre 2008 e 2014

Fonte: Autoria própria

A Figura 24 ilustra um gráfico que mostra em seus dados o total de ocorrências nos

bairros da cidade durante o período dos sete anos. Vemos que o Centro da cidade lidera com

um total acima de 8 mil ocorrências, mostrando um valor que é o dobro do bairro de Boa

Passagem, o segundo bairro com a maior incidência. O bairro Recreio tem o menor índice de

ocorrências com 1,1 mil e os bairros seguintes mantêm valores entre 1,6 mil e 3,3 mil no seu

total. A Zona Rural constado no gráfico não faz parte do interior da cidade, a Zona Rural de

Caicó é composta por povoados próximos ao município como o distrito de Laginhas, Palma,

Manhoso, entre outros. Porém, na base da COPOM foram registradas as ocorrências como

sendo de uma mesma área.

Figura 24 – Top 10 bairros com maior incidência criminal

Fonte: Autoria própria

49

A Figura 25 mostra uma análise de séries temporais sobre os índices de tendências em

incidências criminais de 2008 a 2014. Utilizou-se um gráfico de linhas onde no mesmo é

computado o total de ocorrências criminais por trimestre de cada ano, assim como a aplicação

da aritmética de ajuste sazonal e de média móvel. Na Figura 25 constata-se que o primeiro

trimestre de 2011 tem o maior pico de registro de ocorrências em todos os anos comparando-o

aos demais trimestres. No período entre o terceiro trimestre de 2011 e o primeiro trimestre de

2012 mostra uma queda total do número de registro de ocorrências, isso ocorreu devido o

sistema que gerencia a base da COPOM estar desativado durante esse tempo, retornando ao

funcionamento logo após.

Figura 25 – Tendência em incidências criminais, 2008-2014

Fonte: Autoria própria

A Tabela 5 mostra os dados que foram utilizados para emitir o gráfico de séries

temporais da Figura 25. A primeira coluna mostra os trimestres desde 2008 até 2014, a

segunda coluna mostra os trimestres em valores numéricos que vão de 1 a 4, a terceira coluna

mostra os dados que são o total de registros de ocorrências por trimestre, a quarta coluna

mostra os valores da média móvel centrada que são usados para traçar a linha de média móvel

no gráfico, a quinta coluna mostra a proporção dos dados que são adquiridos pela divisão dos

dados com a média centrada, a sexta coluna mostra o índice sazonal que é um dado utilizado

na confecção dos dados da sétima coluna que representam a linha de ajuste sazonal obtido

pela divisão dos dados pelo índice.

50

Tabela 5 – Tabela que compões os dados das ocorrências por trimestre

Data Trim. Dados Média Móvel Proporção Índice Sazonal Ajuste Sazonal

Mar. 2008 1 84 88% 90,32

Jun. 2008 2 1484 134% 1052,48

Set. 2008 3 794 891,13 89% 104% 863,04

Dez. 2008 4 926 915,50 101% 74% 1268,49

Mar. 2009 1 637 885,50 72% 88% 684,95

Jun. 2009 2 1126 916,00 123% 134% 798,58

Set. 2009 3 912 980,38 93% 104% 991,30

Dez. 2009 4 1052 1032,75 102% 74% 1441,10

Mar. 2010 1 1026 1079,63 95% 88% 1103,23

Jun. 2010 2 1156 1255,75 92% 134% 819,86

Set. 2010 3 1257 1643,50 76% 104% 1366,30

Dez. 2010 4 2116 2016,13 105% 74% 2898,63

Mar. 2011 1 3064 1976,88 155% 88% 3294,62

Jun. 2011 2 2099 1555,25 135% 134% 1488,65

Set. 2011 3 0 907,75 0% 104% 0,00

Dez. 2011 4 0 589,75 0% 74% 0,00

Mar. 2012 1 0 895,88 0% 88% 0,00

Jun. 2012 2 2619 1302,13 201% 134% 1857,45

Set. 2012 3 1929 1655,13 117% 104% 2096,74

Dez. 2012 4 1321 1718,13 77% 74% 1809,59

Mar. 2013 1 1503 1573,88 95% 88% 1616,13

Jun. 2013 2 1620 1621,63 100% 134% 1148,94

Set. 2013 3 1774 1784,88 99% 104% 1928,26

Dez. 2013 4 1858 2019,75 92% 74% 2545,21

Mar. 2014 1 2272 2206,88 103% 88% 2443,01

Jun. 2014 2 2730 2023,13 135% 134% 1936,17

Set. 2014 3 2161 897,00 241% 104% 2348,91

Dez. 2014 4 1 3,25 31% 74% 1,37

Fonte: Autoria própria

Os dados da Média Móvel na Tabela 5 foram obtidos seguindo a Equação (2) onde se

calcula a média simples de cada quatro trimestres duas vezes com a diferença de um ano e

obtém a média sobre as mesmas.

∑( ∑ ) (

∑ )

( )

51

Onde:

MM = Média móvel

P = Total de cada trimestre

n = Total de registros trimestrais

i = Índice que percorrerá todos os registros

j,k = Índices dos subconjuntos da primeira e segunda média aritmética

Os dados da coluna Índice Sazonal da Tabela 5 refletem os valores normalizados da

Tabela 6 baseando-se no respectivo trimestre.

Tabela 6 – Normalização de índices sazonais

Índice sazonal

Trimestre Não normalizado Normalizado

1 87% 88%

2 131% 134%

3 102% 104%

4 73% 74%

Total 392% 400%

Fonte: Autoria própria

Os valores dos índices Não Normalizados da Tabela 6 foram obtidos pela utilização da

Equação (3) onde são somadas as proporções de cada trimestre específico e depois é realizado

a média simples do valor obtido.

( )

Onde:

INN = Índices não normalizados

n = Total de registros

t = Trimestre de cada ano

i = Índice que percorrerá os registros baseado por trimestre t

P = Proporção por trimestre

52

Os valores dos índices Normalizados na Tabela 6 foram adquiridos mediante o uso da

Fórmula (3) onde houve uma reescala para que a soma dos valores normalizados fosse

exatamente 400% como consta o total da Tabela 6.

( )

Onde:

IN = Índice normalizado

X = Índice não normalizado

i = Índice dos índices não normalizados

T = Total que representa a soma de todos os índices não normalizados

Baseando-se nos dados do gráfico da Figura 26, percebe-se que as três ocorrências

com os maiores índices de registros foram: perturbação do sossego alheio, pessoa em atitude

suspeita e acidente de trânsito. Foram selecionados apenas esses tipos de ocorrências devido a

aplicação conter campos para apenas três ocorrências por gráfico. A Figura 26 ilustra a

comparação das ocorrências entre dois períodos dos anos 2013 e 2014.

Figura 26 – Comparação de ocorrências entre carnavais de 2013 e 2014

Fonte: Autoria própria

53

Com a aplicação da técnica de gráficos de linhas ilustradas na Figura 26 é possível

analisar as estatísticas criminais de períodos iguais, porém em anos diferentes, comparando-os

de forma paralela. Os períodos ilustrados na Figura 26 representam o período do carnaval nos

referidos anos de 2013 e 2014. Percebe-se que as ocorrências de perturbação de sossego

reflete bem esse período e lidera com o maior número de ocorrências. No carnaval de 2014

houve mais registros desse tipo de ocorrência do que o ano de 2013, assim como o número de

pessoas em atitude suspeita teve registros de aproximadamente 10 ocorrências no domingo

deste mesmo ano.

A Figura 27 ilustra uma comparação de ocorrências semelhante a da Figura 26, porém

com a substituição dos tipos acidente de trânsito e pessoa em atitude suspeita por roubo e

arrombamento em um período diferente que é o período da padroeira da cidade. É notável que

entre esses dois eventos, a festa de Sant‟Ana é mais calma que o carnaval por não apresentar

valores altos de perturbação de sossego. Os gráficos da Figura 27 ilustra ainda o

acompanhamento criminal dos roubos e arrombamentos na cidade onde 2014 foram

registrados mais roubos do que em 2013.

Figura 27 – Comparação de ocorrências entre as festas de Sant'Ana de 2013 e 2014

Fonte: Autoria própria

54

A Figura 28 ilustra a aplicação dos gráficos de colunas horizontais que mostram uma

comparação anual de cinco tipos de ocorrências diferentes com o maior teor de registros.

Verifica-se que as ocorrências do tipo perturbação de sossego alheio possuem índices altos

nos primeiros anos, dobrando a quantidade de registros no ano de 2011 e tendo uma leve

queda nos anos seguintes. O tipo de ocorrência de pessoa em atitude suspeita é o único que

possui um crescimento exponencial, tendo uma taxa de crescimento com mais de 3400%, em

relação ao primeiro e último ano, superando a ocorrência de perturbação do sossego alheio no

último ano com 1700 registros. No primeiro ano essa ocorrência teve 50 registros.

Os registros de ocorrências de acidente de trânsito permanecem com baixos índices

numéricos comparados com as demais ocorrências, tendo uma leve diminuição no ano de

2011 e retornando a crescer a partir de 2012 com uma breve diminuída em 2014. As

ocorrências do tipo de vias de fato ou agressão chegam a superar a ocorrência de perturbação

do sossego alheio no ano de 2009, porém, tem uma queda drástica a partir de 2010 e não há

registros do mesmo nos anos de 2013 e 2014. As ocorrências do tipo solicitação de

policiamento têm os seus números de registros quadriplicados em relação aos anos de 2008 e

2010 e seguindo um esquema semelhante ao do tipo vias de fato, tendo quedas de grande

relevância nos anos a partir de 2012.

Figura 28 – Comparação de cinco tipos de ocorrências no período de 2008 a 2014

Fonte: Autoria própria

55

5. CONCLUSÕES E TRABALHOS FUTUROS

Este trabalho teve como característica principal utilizar técnicas de visualização de

dados sobre uma base de dados da Polícia Militar, com objetivo de extrair conhecimento útil

que pudesse ser visualizado em forma de gráficos e mapas, utilizando as bibliotecas de mapas

da Google. Baseado nos resultados obtidos por esta pesquisa, conclui-se que a mesma foi

satisfatória trazendo resultados relevantes para a tomada de decisão da Polícia Militar no

município de Caicó-RN, embora não tenham sido abordada todas as técnicas visuais

possíveis.

Houve algumas dificuldades durante o processo de obtenção dos resultados para a

aplicação da técnica de pontos quentes. A base de dados da COPOM continha muitos

registros de ocorrências inválidos e milhares de ocorrências tiveram que ser descartadas nesse

procedimento devido à inviabilidade das mesmas, dificultando assim a tarefa de

transformação dos dados. Como a API de geocodificação da Google(Google Maps Geocoding

API) não conseguia localizar os endereções de localidades inválidas, ocorrências com os

valores nulos eram retornados da API e então eram rejeitadas.

No mesmo processo, muitas ocorrências que eram válidas tinham nomes de avenidas

sem mais informações como, por exemplo, o número da residência ou estabelecimento

próximo de onde aconteceu o crime. Isso fazia com que a API buscasse as coordenadas

centrais daquela rua, criando assim núcleos centrados de ocorrências que eram mostrados

como intensas esferas vermelhas no mapa de pontos quentes.

Esse tratamento de ocorrências foi utilizado apenas para a aplicação da técnica de

pontos quentes, nos processos de utilização de gráficos para a geração das estatísticas

criminais, foram utilizadas todas as ocorrências da base de dados, embora elas tivessem ou

não os valores de coordenadas geográficas, porque, por mais que uma ocorrência tivesse sua

localidade irreconhecível pela a API de geocodificação, ela poderia ser utilizada para a

contabilidade das ocorrências.

Para gerar os gráficos de estatísticas, foram utilizadas seletivamente as técnicas de

gráficos de pizza, gráficos de colunas horizontais e verticais e gráficos de linha. A API de

gráficos da Google (Google Charts) possui uma vasta quantidade de gráficos, porém a

presente pesquisa limitou-se a utilizar apenas esses por atender os interesses dos objetivos

principais desta pesquisa.

56

Finalmente, é necessário enfatizar que este trabalho não utilizou todas as técnicas de

visualização de dados possíveis, nem mesmo todos os tipos de gráficos que a própria API de

gráficos da Google fornece. Para trabalhos futuros, fica aberta a possibilidade de adicionar

mais técnicas visuais, baseadas em diferentes tipos de pesquisas sobre a base de dados

criminais, com o objetivo de obter resultados de estatísticas policiais diferentes, onde sejam

mostrados novos aspectos da base de dados com outros tipos de gráficos.

Outra forma de estender este trabalho seria utilizar algoritmos de mineração de dados

sobre ocorrências criminais visando à predição de crimes no município, para ter êxito nessa

tarefa, será necessário um tratamento completo de restauração da base de dados criminais,

pois uma grande parte ocorrências foi registrada com valores inválidos, os resultados da

predição poderiam ser ilustrados utilizando as técnicas visuais.

57

REFERÊNCIAS

ALEXANDRE, Dulclerci Sternadt; TAVARES, Joao Manuel RS. Introduction of human

perception in visualization. 2010.

ARCHARD, J. F. University of Leicester. Tribology, v. 2, n. 4, p. 237, 1969.

BERNICA, Timothy W. et al. Analysis and prediction of insurgent influence for US

military strategy. In: Systems and Information Engineering Design Symposium (SIEDS),

2013 IEEE. IEEE, 2013. p. 161-166.

BRASIL. Lei nº 12.850, de 2 de agosto de 2013. Define organização criminosa e dispõe

sobre a investigação criminal, os meios de obtenção da prova, infrações penais correlatas

e o procedimento criminal a ser aplicado. Aceso em: 21 de outubro de 2014. Disponível

em: http://www.planalto.gov.br/ccivil_03/_ato2011-2014/2013/lei/l12850.htm.

BRASIL. Decreto Lei nº 2848/40, de 07 de Dezembro de 1940. Fazer justiça pelas próprias

mãos, para satisfazer pretensão, embora legítima, salvo quando a lei o permite. Art. 345

do Código Penal.

BRAZ, Lucas M. et al. Aplicando Mineraç ao de Dados para Apoiar a Tomada de

Decisao na Segurança Publica do Estado de Alagoas. 2009.

CHAINEY, Spencer; TOMPSON, Lisa; UHLIG, Sebastian. The utility of hotspot mapping

for predicting spatial patterns of crime. Security Journal, v. 21, n. 1, p. 4-28, 2008.

DA SILVA, Marcelle Peres et al. Análise Socioespacial Da Violência Na 12ª AISP: O Uso

Do Território, Geoinformação E Influências Da Violência Urbana Em Belém-Pa.

Revista GeoAmazônia, v. 2, n. 04, 2015.

DALL‟OGLIO, Pablo. Php-programando com orientaçao a objetos. Novatec Editora,

2015.

DOCHERTY, Peter; BECK, Allan. A Visual Metaphor for Knowledge Discovery.

Information visualization in data mining and knowledge discovery, p. 192-204, 2001.

DUNHAM, Margaret H. Data mining: Introductory and advanced topics. Pearson Education

India, 2006.

FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From data

mining to knowledge discovery in databases. AI magazine, v. 17, n. 3, p. 37, 1996.

FELDMAN, Ronen; KLÖSGEN, Willi; ZILBERSTEIN, Amir. Visualization Techniques to

Explore Data Mining Results for Document Collections. In: KDD. 1997. p. 16-23.

FERRER, Florencia. TI na segurança Pública. [Editorial]. B2B Magazine (Rede viva),

2005.

FEW, Stephen. Data visualization for human perception. The Encyclopedia of Human-

Computer Interaction, 2nd Ed., 2013.

58

FOONG, DAVID LAWYUH. A visualization-driven approach for strategic knowledge

discovery. Information visualization in data mining and knowledge discovery, p. 181-190,

2001.

FOX, Jon et al. Investigating a Bayesian Hierarchical Framework for Feature-Space

Modeling of Criminal Site-Selection Problems. In: MAICS. 2012. p. 185-192.

FRAWLEY, William J.; PIATETSKY-SHAPIRO, Gregory; MATHEUS, Christopher J.

Knowledge discovery in databases: An overview. AI magazine, v. 13, n. 3, p. 57, 1992.

FRIEDMAN, Vitaly. Data visualization: Modern approaches. Smashing Magazine, v. 2,

2007.

______. Data visualization and infographics. Graphics, Monday Inspiration, v. 14, p. 2008,

2008.

FRIENDLY, Michael; DENIS, Daniel J. Milestones in the history of thematic

cartography, statistical graphics, and data visualization. URL http://www. datavis.

ca/milestones, 2001.

FRY, Ben. Visualizing data: Exploring and explaining data with the processing environment.

" O'Reilly Media, Inc.", 2007.

GERBER, Matthew S. Predicting crime using Twitter and kernel density estimation.

Decision Support Systems, v. 61, p. 115-125, 2014.

GUILLEN, Luis Miguel Marquez. Proposta metodológica de geocodificação para uso da

estatística espacial na compreensão do fenômeno crime. 2015.

HALL, Mark; WITTEN, Ian; FRANK, Eibe. Data mining: Practical machine learning tools

and techniques. Kaufmann, Burlington, 2011.

HAMILTON, James Douglas. Time series analysis. Princeton: Princeton university press,

1994. 2 ed.

HAN, Jiawei; KAMBER, Micheline; PEI, Jian. Data mining: concepts and techniques.

Elsevier, 2011.

HENRIQUES, Sónia. Análise Espacial E Temporal De Uma Base De Dados Criminais.

2014.

HILTON, Marlon. Injustiça com as próprias mãos. Disponível em:

<http://mhilton.jusbrasil.com.br/artigos/119871420/injustica-com-as-proprias-

maos?ref=topic_feed>. Acesso em: 21 de outubro de 2014.

HORNICK, Mark F.; MARCADÉ, Erik; VENKAYALA, Sunil. Java data mining: strategy,

standard, and practice: a practical guide for architecture, design, and implementation. Morgan

Kaufmann, 2010.

KANTARDZIC, Mehmed. Data mining: concepts, models, methods, and algorithms. John

Wiley & Sons, 2011.

59

MARCELIONIS, A. Fun With Physics In Data Visualization. Smashing Magazine, 2015.

Disponível em: < https://www.smashingmagazine.com/2015/03/fun-with-physics-in-data-

visualization/ >. Acesso em: 10 de março de 2015.

MCCUE, Colleen. Data mining and predictive analytics in public safety and security. IT

Professional Magazine, v. 8, n. 4, p. 12, 2006.

MCCUNE, Doug. Crime in San Francisco’s Urban Renewal Area. 2009. Disponível em:

<http://blog.spatialkey.com/2009/10/crime-in-san-franciscos-urban-renewal-area/>. Acesso

em: 20 de outubro de 2014.

MOHLER, George O. et al. Self-exciting point process modeling of crime. Journal of the

American Statistical Association, 2012.

MOHLER, George. Marked point process hotspot maps for homicide and gun crime

prediction in Chicago. International Journal of Forecasting, v. 30, n. 3, p. 491-497, 2014.

NAUGHTON, Patrick. Dominando o JAVA:[guia autorizado da Sun Microsystems]. 1996.

NORENZAYAN, Ara; CHOI, Incheol; PENG, Kaiping. Perception and cognition. 2007.

OATLEY, Giles C.; EWART, Brian W. Crimes analysis software:„pins in maps‟, clustering

and Bayes net prediction. Expert Systems with Applications, v. 25, n. 4, p. 569-588, 2003.

ORACLE. Data Mining Application Developer's Guide. Acesso em: 25 de novembro de

2014. Disponível em: https://docs.oracle.com/

PERAZZONI, Franco. SIG, Amazônia e polícia federal: geointeligência no combate ao

desmatamento ilegal na Amazônia. 2013. Tese de Doutorado.

PERRY, Walt L. Predictive policing: The role of crime forecasting in law enforcement

operations. Rand Corporation, 2013.

PRESS, G. A Very Short History Of Data Science. 2013. Disponível em:

<http://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-

science/#69b900ec69fd>. Acesso em: 15 de março de 2016.

SPENCE, Ian. No humble pie: The origins and usage of a statistical chart. Journal of

Educational and Behavioral Statistics, v. 30, n. 4, p. 353-368, 2005.

SVENNERBERG, Gabriel. Beginning Google Maps API 3. Apress, 2010.

WANG, Xiaofeng; BROWN, Donald E.; GERBER, Matthew S. Spatio-temporal modeling

of criminal incidents using geographic, demographic, and Twitter-derived information.

In: Intelligence and Security Informatics (ISI), 2012 IEEE International Conference on. IEEE,

2012. p. 36-41.

60

APÊNDICES

61

APÊNDICE A – Código Fonte Utilizado no Tratamento das Ocorrências Criminais

62

public static void main() {

Dao dao = new Dao();

List<Ocorrencia> ocorrencias = dao.pesquisar(1000, 0);

int cont = 0;

for (Ocorrencia o : ocorrencias) {

String url =

"http://maps.googleapis.com/maps/api/geocode/json?address=";

if (o.getEndereco() == null) {

continue;

} else if (o.getEndereco().isEmpty()) {

continue;

}else {

url += o.getEndereco().replace(" ", "+") + "+Caicó+-

+RN&sensor=false";

}

URL u = new URL(url);

HttpURLConnection con = null;

StringBuilder json = new StringBuilder();

try {

con = (HttpURLConnection) u.openConnection();

cont++;

con.setRequestProperty("User-Agent",

"Mozilla/5.0");

BufferedReader br = new BufferedReader(

new InputStreamReader(con.getInputStream()));

String aux = "";

while ((aux = br.readLine()) != null) {

json.append(aux);

}

} catch (Exception ex) {

p("DC: " + ex.getMessage());

break;

}

JSONObject obj = new JSONObject(json.toString());

String status = obj.getString("status");

if (status.compareToIgnoreCase("ZERO_RESULTS") == 0) {

p("inválido: " + o.getEndereco() + " id: " +

o.getId() + " cont: " + cont);

continue;

} else if

(status.compareToIgnoreCase("OVER_QUERY_LIMIT") == 0) {

p(">>> LIMITE DE CONSULTAS ALCANÇADO");

break;

}

JSONArray results = obj.getJSONArray("results");

JSONObject geometry =

results.getJSONObject(0).getJSONObject("geometry");

63

JSONObject location =

geometry.getJSONObject("location");

o.setLatitude(location.getDouble("lat"));

o.setLongitude(location.getDouble("lng"));

if (o.getLatitude() == 0 || o.getLongitude() == 0) {

p("inválido: " + o.getEndereco() + " id: " +

o.getId() + " cont: " + cont);

}

p("Valido: " + o.getId() + ", " + o.getEndereco()

+ " cont: " + cont);

o.setValido(true);

con.disconnect();

Thread.sleep(1000);

}

dao.salvar(ocorrencias,

new File("d:/validas.txt"),

new File("d:/invalidas.txt"));

dao.close();

}

public static void p(Object o) {

System.out.println(o);

}

64

APÊNDICE B – Distribuição Criminal Sobre os 12 Meses do Ano de 2013

65

Figura 29 – Ocorrências criminais de janeiro de 2013

Fonte: Autoria própria

Figura 30 – Ocorrências criminais até fevereiro de 2013

Fonte: Autoria própria

66

Figura 31 – Ocorrências criminais até março de 2013

Fonte: Autoria própria

Figura 32 – Ocorrências criminais até abril de 2013

Fonte: Autoria própria

67

Figura 33 – Ocorrências criminais até maio de 2013

Fonte: Autoria própria

Figura 34 – Ocorrências criminais até junho de 2013

Fonte: Autoria própria

68

Figura 35 – Ocorrências criminais até julho de 2013

Fonte: Autoria própria

Figura 36 – Ocorrências criminais até agosto de 2013

Fonte: Autoria própria

69

Figura 37 – Ocorrências criminais até setembro de 2013

Fonte: Autoria própria

Figura 38 – Ocorrências criminais até outubro de 2013

Fonte: Autoria própria

70

Figura 39 – Ocorrências criminais até novembro de 2013

Fonte: Autoria própria

Figura 40 – Ocorrências criminais até dezembro de 2013

Fonte: Autoria própria