Título: - meste Web viewSpark. da Apache, o qual deverá ser instalado e configurado...

2
Título: “Big data analytics in the cloud: experimenting with telecommunication datasets” Orientação: Prof. João Oliveira Prof. Fernando Brito e Abreu Palavras chave: Big data, Spark, data visualization, data mining. Descrição: O objetivo desta dissertação é investigar a capacidade de fazer data mining e visualização de grandes datasets num ambiente de computação na cloud. Para tal, pretende-se usar o Spark da Apache, o qual deverá ser instalado e configurado num ambiente de cloud elástico, suportado pelo virtual data center da Portugal Telecom (PT). Este trabalho de investigação permitirá a aquisição de competências ao nível de algumas das ferramentas mais usadas atualmente no âmbito do big data analytics, bem como ao nível de uma infraestrutura de topo de gama que o pode suportar. A ideia não é focar o problema na capacidade real do sistema, mas sim na estrutura e configuração da cloud de forma a compreender os compromissos envolvidos. A validação deste trabalho será efetuada através da montagem de uma experiência controlada de análise do desempenho, cujo workflow deverá ser especificado e cujos resultados deverão ser publicados. Em conjunto com os resultados da proposta “Big data analytics with distributed computing”, espera-se produzir um conjunto de linhas orientadoras para a seleção da infraestrutura/tecnologias em função do problema a analisar. O trabalho será desenvolvido em colaboração com a PT, que fornecerá datasets reais a serem analisados. Requisitos: Não existem requisitos para além de bons conhecimentos de programação, sistemas operativos, bases de dados e aprendizagem automática. Informações adicionais: Este trabalho decorrerá no âmbito de um projeto de investigação financiado pela Fundação para a Ciência e a

Transcript of Título: - meste Web viewSpark. da Apache, o qual deverá ser instalado e configurado...

Page 1: Título: - meste Web viewSpark. da Apache, o qual deverá ser instalado e configurado num ambiente de . cloud. elástico, suportado pelo . virtual data center. da Portugal Telecom

Título:“Big data analytics in the cloud:

experimenting with telecommunication datasets”

Orientação: Prof. João OliveiraProf. Fernando Brito e Abreu

Palavras chave: Big data, Spark, data visualization, data mining.

Descrição: O objetivo desta dissertação é investigar a capacidade de fazer data mining e visualização de grandes datasets num ambiente de computação na cloud. Para tal, pretende-se usar o Spark da Apache, o qual deverá ser instalado e configurado num ambiente de cloud elástico, suportado pelo virtual data center da Portugal Telecom (PT).

Este trabalho de investigação permitirá a aquisição de competências ao nível de algumas das ferramentas mais usadas atualmente no âmbito do big data analytics, bem como ao nível de uma infraestrutura de topo de gama que o pode suportar. A ideia não é focar o problema na capacidade real do sistema, mas sim na estrutura e configuração da cloud de forma a compreender os compromissos envolvidos. A validação deste trabalho será efetuada através da montagem de uma experiência controlada de análise do desempenho, cujo workflow deverá ser especificado e cujos resultados deverão ser publicados. Em conjunto com os resultados da proposta “Big data analytics with distributed computing”, espera-se produzir um conjunto de linhas orientadoras para a seleção da infraestrutura/tecnologias em função do problema a analisar.

O trabalho será desenvolvido em colaboração com a PT, que fornecerá datasets reais a serem analisados.

Requisitos: Não existem requisitos para além de bons conhecimentos de programação, sistemas operativos, bases de dados e aprendizagem automática.

Informações adicionais:Este trabalho decorrerá no âmbito de um projeto de investigação financiado pela Fundação para a Ciência e a Tecnologia designado de DataScience4NP (Data Science for Non Programmers) que irá arrancar muito em breve. Este projeto tem verba para deslocação a pelo menos uma conferência para apresentação dos resultados desta dissertação.

Links: Virtual data center da PT: https://cloud.ptempresas.pt/Pages/Datacenter/DCC.aspx Apache Spark: http://spark.apache.org/ Interactive data analytics tool: https://zeppelin.apache.org/ Visualizing big data in the browser using Spark:

https://spark-summit.org/east-2015/talk/visualizing-big-data-in-the-browser-using-spark Big data visualization:

http://inspire.blufra.me/big-data-visualization-review-of-the-20-best-tools/ Collaborative environment for scientific workflows: http://www.myexperiment.org/