Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

Post on 07-Feb-2017

96 views 1 download

Transcript of Curso Intro à Ciência de Dados com R - 1.1 - Carga de dados

José Roberto Motta Garciagarcia.cptec@gmail.comNov/2016

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Fases da análise de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Fases da análise de dados

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

R e RStudio

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

R e RStudio

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

R e RStudio

CÓDIGOAMBIENTE

DE VARIÁVEIS

SAÍDA DO CONSOLE

GRÁFICOS, HELP,…

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

R e RStudio

CÓDIGOAMBIENTE

DE VARIÁVEIS

SAÍDA DO CONSOLE

GRÁFICOS, HELP,…

Executacódigo marcado

ou linhaAtalho=Comm+enter (Mac)

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Fontes de dados para análises

• Google “free dataset for analysis”

• https://www.kaggle.com/datasets (competições diversas)

• http://www.ncdc.noaa.gov/data-access (largest provider of weather/climate data)

• http://bancodedados.cptec.inpe.br/downloadBDM/ (dados meteorológicos)

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Primeiros conceitos

Exemplo de estruturade diretórios

…\IntroDSwithR 01.1- CargaDeDados.R 01.2- TratamentoDeDados.R ... \Lib

Fun.Div.R \data

\txt\Rdata\Original

\Slides

Use os seus diretórios

(dir.data)

(dir.src)

(dir.txt)

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Manipulação de dados – Leitura de CSVNa vida real os dados quase nunca vêm “prontos”

workspace

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Manipulação de dados – estrutura de um data.frame

Tipo do objeto

data.frame = tabela em BD (várias “colunas” de tipos diferentes)

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Tipos de dados básicos (do mais forte ao mais fraco)

Forte

Fraco

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Tipos de dados estruturados: vector

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Dados básicos são vetores

Vetores de um elemento

Vetor de 50 elementosÍndice

do próximo elemento que é mostrado na tela

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Tipos de dados: vetores e coerção de dados

PERIGO! NÃO GERA ERRO!!

EXECUÇÃO CONTINUA!!

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Conceito de “bind” – (amarrar, unir, linkar)Tabela T (matrix, DF ou

DT)

T <- cbind(DESCR, MEDIDA)

DESCRABC

MEDIDA99

10040

DESCRABC

MEDIDA99

10040

Dois vetores

ANO19681969

VALOR974

1000

INDICE23

CLASSEAUTO

MAN

ANO19701971

VALOR12002000

INDICE34

CLASSEAUTO

MAN

Tabela A

Tabela B

ANO19681969

VALOR974

1000

INDICE23

CLASSEAUTO

MAN19701971

12002000

34

AUTOMAN

Tabela C

C <- rbind(A, B) A

BCD

12

CUIDADO COM CICLAGEM!!

Elementos do vetor menor são repetidos!!

Só warning!

cbind(v1, v2)

v1 v2ABCD

1212

v1 v2

BIND DE COLUNAS

BIND DE LINHAS

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Tipos de dados: estruturados (1)

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Tipos de dados: estruturados (2)

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

O objeto data.table

Medir tempo

Espaçoocupado

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

O que são pacotes?

• R é melhorado de forma colaborativa• Pacotes são desenvolvidos e disponibilizados por cientistas do mundo

inteiro.• Pacotes = coleção de elementos (funções, tipos de dados, ...) que

otimizam as funções básicas do R• Ficam em https://cran.r-project.org/ • Como saber qual pacote usar?

• Google it!• http://stackoverflow.com/• https://www.r-bloggers.com/• http://www.statmethods.net/

• https://github.com/Rdatatable/data.table/wiki• https://www.datacamp.com/courses/data-analysis-the-data-table-way

sobredata.table

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Manipulação de dados – Leitura de FWF (formatado com largura fixa)

File.info retorna um data.frame

Valores da coluna podem ser acessados via “$”

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Manipulação de dados – Leitura de arquivo de formato livre

Separa dado “delimitado”

[[1]][1] "name” "Data Science”[[2]][1] "class" "IT" [[3]][1] "level” "beginner”[[4]][1] "url" [2] https:--www.dropbox.com-home-DataScience-Course- IntroToDSwithR[[5]][1] "keywords” "data analysis, statistics"

MATRIZ CONFIG

Função *apply (poderosas) Imprime

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

EXCEL - Download e leitura

Do pacote utils (pré-carregado)

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

XML - Download e leitura (1)

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

XML - Download e leitura (2) – Previsão do tempo pelo CPTEC

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

HTML - Download e leitura

José Roberto M. Garcia Nov/2016Introdução à Ciência de Dados com R

Outras interfaces com arquivos

• PACKAGE FOREIGN – dados de outras linguagens de programação • read.arff() # weka• read.dta() # Stata• read.mtp() # Minitab• read.octave()

• DADOS SEMI- ESTRUTURADOS: jsonlite, NetCDF • DATABASE: RPostressSQL, RODBC, RMongo, RMySQL• IMAGES: jpeg, readbimap, png, EBImage (Bioconductor)• GIS: rdgal, rgeos, raster• MUSIC: tuneR, seewave

Dados climáticos