Introdução à Análise de Dados - Aula 01

19
INTRODUÇÃO Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad

description

Aula inicial da disciplina de Introdução à Análise de Dados da UFPB.

Transcript of Introdução à Análise de Dados - Aula 01

INTRODUÇÃOAlexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad

O QUE É CIÊNCIA DOS DADOS?

Ciência da Computação

!!

Matemática e Estatística

!!

!!!

Domínio de Aplicação

Ciência dos

Dados

Finanças

EconomiaEngenharia

Direito

Medicina

Ciências Sociais

Ciências

O QUE É CIÊNCIA DOS DADOS?

Coletar, transformar e

armazenar dados

Mágica 01: gerar

informação

Mágica 02: apresentar a informação

Mágica 03: gerar

conhecimento

Alto BaixoMassageamento de Números (máquina)

AltoBaixoIntrepretação (humano)

O QUE É CIÊNCIA DOS DADOS?

Coletar, transformar e

armazenar dados

Mágica 01: gerar

informação

Mágica 02: apresentar a informação

Mágica 03: gerar

conhecimento

Computação Comunicação / Visualização

Matemática / Estatística

Conhecimento sobre o domínio

CIÊNCIA DA COMPUTAÇÃO VS CIÊNCIA DOS DADOS

Ciência da Computação

Entrada X

Função FSaída Y = F(X)

Ciência dos DadosEntrada X

Saída YModelar f tal que

Y = f(X) + ɛ

USANDO UM MODELO

Entradas e Saídas

Modelo

Algoritmo de treinamento

Novas entradas

Saídas estimadas

–Vasant Dhar

“Ciência dos Dados é a ciência que estuda formas de extrair conhecimento generalizável a partir de dados.”

Leitura recomendada: !Data Science and Prediction, Communications of the ACM, Vol. 56 No. 12, Pages 64-73

E ONDE ESTÁ A CIÊNCIA NISSO?

–Autor desconhecido

“Qualquer área que se auto-denomina Ciência não pode ser Ciência.”

Leitura recomendada: !Is computer science science?, Communications of the ACM Vol. 48 No. 4, Pages 27-31 Where is the Science in Computer Science?, Communications of the ACM, Vol. 55 No. 10, Page 5 The Science in Computer Science, Communications of the ACM, Vol. 56 No. 5, Pages 35-38

UTILIZAR APRENDIZAGEM DE MÁQUINA NÃO É CIÊNCIA!

PERSEGUIR CORRELAÇÕES NÃO É CIÊNCIA!

CIÊNCIA É EXPLORAR E EXPLICAR O DESCONHECIDO!

• No caso da Ciência dos Dados, isso significa aprender a fazer as perguntas corretas e a extrair dos dados as respostas adequadas para tais perguntas.

O QUE VEREMOS NESTE CURSO

• Fundamentação teórica (Tipos de dados e como os dados são geralmente agrupados)

• Técnicas para coleta de dados (Formulários, projeto de experimentos e dados públicos)

• Técnicas para análise de dados (Sumarização estatística, correlação, regressão linear e agrupamento)

• Princípios de visualização de dados

O QUE NÃO VEREMOS NESTE CURSO

• Técnicas avançadas de aprendizagem de máquina

• Técnicas avançadas de análise e modelagem estatística

FORMA DE AVALIAÇÃO• Desenvolvimento de um projeto (grupos de até 2 alunos)

completo de análise e visualização de dados

• 3 etapas:

• Plano de pesquisa e planejamento de releases (35%)

• Entrega da 1a release (25%)

• Entrega da 2a release (40%)

TODOS OS PROJETOS DEVERÃO

• Oferecer uma interface web

• Realizar a coleta, limpeza e análise dos dados de forma (semi-)automática

• Exibir de forma interativa e geo-referenciada os resultados obtidos

• Considerar a evolução temporal dos resultados

FONTES DE DADOS

• Só poderão ser utilizadas fontes de dados listadas no site da disciplina

• Os alunos podem sugerir novas fontes de dados

REFERÊNCIAS• DATA + DESIGN: A simple introduction to preparing

and visualizing information. Trina Chiasson et al, 2014.

• Core Concepts in Data Analysis: Summarization, Correlation and Visualization. Boris Mirkin, 2011

• The Art of Computer Systems Performance Analysis: Techniques for Experimental Design, Measurement, Simulation, and Modeling. R. Jain, 1991.