Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de...

66
folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados Publicação de dados de biodiversidade através do GBIF Qualidade e limpeza de dados - I Porto | MHNC-UP 2019 Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 1 / 23

Transcript of Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de...

Page 1: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

Publicação de dados de biodiversidade através do GBIF

Qualidade e limpeza de dados - I

Porto | MHNC-UP

2019

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 1 / 23

Page 2: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

a necessidade de formaçãono uso de folhas de cálculo

I para prevenir mais e remediar menosI para minimizar a necessidade de

verificar e alterar os dados a posteriori

BETTERSAFE THANSORRY

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 2 / 23

Page 3: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

porque razões os dados podem perderqualidade numa folha de cálculo?

I erros por não obedecer aos principiosde tidy data

I erros devido à liberdade de introduçãode dados em qualquer lugar da tabela

I erros devido a mudanças automáticasdos dados

I obrigam à limpeza de dados a posterioriOpenRefine ou Tidyverse (R)

The life-changing magicof tidying upyour data

The art and scienceof making data

organized and useable

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 3 / 23

Page 4: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

porque razões os dados podem perderqualidade numa folha de cálculo?

I erros por não obedecer aos principiosde tidy data

I erros devido à liberdade de introduçãode dados em qualquer lugar da tabela

I erros devido a mudanças automáticasdos dados

I obrigam à limpeza de dados a posterioriOpenRefine ou Tidyverse (R)

The life-changing magicof tidying upyour data

The art and scienceof making data

organized and useable

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 3 / 23

Page 5: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

porque razões os dados podem perderqualidade numa folha de cálculo?

I erros por não obedecer aos principiosde tidy data

I erros devido à liberdade de introduçãode dados em qualquer lugar da tabela

I erros devido a mudanças automáticasdos dados

I obrigam à limpeza de dados a posterioriOpenRefine ou Tidyverse (R)

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 3 / 23

Page 6: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

conhecer as suas limitações

I idealmente os dados deveriam serexclusivamente manuseados em basesde dados e ferramentas bioinformáticas

I no entanto, mais tarde ou mais cedo,folhas de cálculo são usadas por todosnós

I em várias fases (coleção dos dados,armazenamento ou preparação dosdados finais)

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 4 / 23

Page 7: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

conhecer as suas limitações

I idealmente os dados deveriam serexclusivamente manuseados em basesde dados e ferramentas bioinformáticas

I no entanto, mais tarde ou mais cedo,folhas de cálculo são usadas por todosnós

I em várias fases (coleção dos dados,armazenamento ou preparação dosdados finais)

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 4 / 23

Page 8: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

conhecer as suas limitações

I idealmente os dados deveriam serexclusivamente manuseados em basesde dados e ferramentas bioinformáticas

I no entanto, mais tarde ou mais cedo,folhas de cálculo são usadas por todosnós

I em várias fases (coleção dos dados,armazenamento ou preparação dosdados finais)

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 4 / 23

Page 9: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

conhecer as suas limitações

I idealmente os dados deveriam serexclusivamente manuseados em basesde dados e ferramentas bioinformáticas

I no entanto, mais tarde ou mais cedo,folhas de cálculo são usadas por todosnós

I em várias fases (coleção dos dados,armazenamento ou preparação dosdados finais)

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 4 / 23

Page 10: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

Origens

I versões em papel utilizadas emcontabilidade

I primeiros programas nos anos 70I monopólio do Microsoft ExcelI versões

"open source""online"

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 5 / 23

Page 11: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

Origens

I versões em papel utilizadas emcontabilidade

I primeiros programas nos anos 70I monopólio do Microsoft ExcelI versões

"open source""online"

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 5 / 23

Page 12: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

Origens

I versões em papel utilizadas emcontabilidade

I primeiros programas nos anos 70I monopólio do Microsoft ExcelI versões

"open source""online"

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 5 / 23

Page 13: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

Origens

I versões em papel utilizadas emcontabilidade

I primeiros programas nos anos 70I monopólio do Microsoft ExcelI versões

"open source""online"

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 5 / 23

Page 14: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

O que são?

I para organização, análise,apresentação de dados

I dados em células de tabelas (colunas +linhas)

I dados podem ser alfanuméricos ou oresultado de uma fórmula

1

2

3

4

5

AA

colunas

linhas

B C D E

célula

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 6 / 23

Page 15: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

O que são?

I para organização, análise,apresentação de dados

I dados em células de tabelas (colunas +linhas)

I dados podem ser alfanuméricos ou oresultado de uma fórmula

1

2

3

4

5

AA

colunas

linhas

B C D E

célula

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 6 / 23

Page 16: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

O que são?

I para organização, análise,apresentação de dados

I dados em células de tabelas (colunas +linhas)

I dados podem ser alfanuméricos ou oresultado de uma fórmula

1

2

3

4

5

AA

colunas

linhas

B C D E

célula

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 6 / 23

Page 17: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

Perfomance

I bases de dados podem ter milhares deregistos

I bases de dados podem ser editadassimultaneamente por vários utilizadores

I bases de dados são mais segurasI folhas de cálculo permitem introduzir

mais facilmente dados, mas tambémerros!

1.048.576linhas

x16.384colunas

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 7 / 23

Page 18: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

Perfomance

I bases de dados podem ter milhares deregistos

I bases de dados podem ser editadassimultaneamente por vários utilizadores

I bases de dados são mais segurasI folhas de cálculo permitem introduzir

mais facilmente dados, mas tambémerros!

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 7 / 23

Page 19: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

Perfomance

I bases de dados podem ter milhares deregistos

I bases de dados podem ser editadassimultaneamente por vários utilizadores

I bases de dados são mais segurasI folhas de cálculo permitem introduzir

mais facilmente dados, mas tambémerros!

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 7 / 23

Page 20: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

Perfomance

I bases de dados podem ter milhares deregistos

I bases de dados podem ser editadassimultaneamente por vários utilizadores

I bases de dados são mais segurasI folhas de cálculo permitem introduzir

mais facilmente dados, mas tambémerros!

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 7 / 23

Page 21: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

Talvez a maior diferença na perspectivado utilizador

I numa base de dados cada registo podeter muitos campos de dados

I numa folha de cálculo cada célula éindependente da linha onde está

I muito mais fácil de misturar dados dediferentes registos, inadvertidamente

1

2

3

4

5

AA B C D Eid 1 date 1 species 1 measure 1 sex 1

id 2 date 2 species 2 measure 2 sex 2

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 8 / 23

Page 22: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

Talvez a maior diferença na perspectivado utilizador

I numa base de dados cada registo podeter muitos campos de dados

I numa folha de cálculo cada célula éindependente da linha onde está

I muito mais fácil de misturar dados dediferentes registos, inadvertidamente

1

2

3

4

5

AA B C D Eid 1 date 1 species 1 measure 1 sex 1

id 2 date 2 species 2 measure 2 sex 2

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 8 / 23

Page 23: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

Talvez a maior diferença na perspectivado utilizador

I numa base de dados cada registo podeter muitos campos de dados

I numa folha de cálculo cada célula éindependente da linha onde está

I muito mais fácil de misturar dados dediferentes registos, inadvertidamente

1

2

3

4

5

AA B C D Eid 1 date 2 species 2 measure 1 sex 1

id 2 date 1 species 1 measure 2 sex 2

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 8 / 23

Page 24: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

correcta estrutura de dados - tidy data

I os conjuntos de dados "limpos"vs"sujos"

I cada variável é uma colunaI cada observação forma uma linhaI dados = célulaI cada tipo de unidade observacional

forma uma tabela

"Tidy datasets are all alike,but every messy datasetis messy in its own way"

Hadley Wickham

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 9 / 23

Page 25: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

correcta estrutura de dados - tidy data

I os conjuntos de dados "limpos"vs"sujos"

I cada variável é uma colunaI cada observação forma uma linhaI dados = célulaI cada tipo de unidade observacional

forma uma tabela

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 9 / 23

Page 26: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

correcta estrutura de dados - tidy data

I os conjuntos de dados "limpos"vs"sujos"

I cada variável é uma colunaI cada observação forma uma linhaI dados = célulaI cada tipo de unidade observacional

forma uma tabela

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 9 / 23

Page 27: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

correcta estrutura de dados - tidy data

I os conjuntos de dados "limpos"vs"sujos"

I cada variável é uma colunaI cada observação forma uma linhaI dados = célulaI cada tipo de unidade observacional

forma uma tabela

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 9 / 23

Page 28: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

correcta estrutura de dados - tidy data

I os conjuntos de dados "limpos"vs"sujos"

I cada variável é uma colunaI cada observação forma uma linhaI dados = célulaI cada tipo de unidade observacional

forma uma tabela

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 9 / 23

Page 29: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

erros mais comuns

I várias tabelas numa folhaI tabelas separadas em várias folhasI cabeçalhos das colunas com valores,

não nomes de variáveisI muitas variáveis em uma colunaI variáveis armazenadas em colunas e

linhasI vários tipos de unidades observacionais

na mesma tabela

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 10 / 23

Page 30: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

erros mais comuns

I várias tabelas numa folhaI tabelas separadas em várias folhasI cabeçalhos das colunas com valores,

não nomes de variáveisI muitas variáveis em uma colunaI variáveis armazenadas em colunas e

linhasI vários tipos de unidades observacionais

na mesma tabela

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 10 / 23

Page 31: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

erros mais comuns

I várias tabelas numa folhaI tabelas separadas em várias folhasI cabeçalhos das colunas com valores,

não nomes de variáveisI muitas variáveis em uma colunaI variáveis armazenadas em colunas e

linhasI vários tipos de unidades observacionais

na mesma tabela

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 10 / 23

Page 32: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

erros mais comuns

I várias tabelas numa folhaI tabelas separadas em várias folhasI cabeçalhos das colunas com valores,

não nomes de variáveisI muitas variáveis em uma colunaI variáveis armazenadas em colunas e

linhasI vários tipos de unidades observacionais

na mesma tabela

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 10 / 23

Page 33: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

erros mais comuns

I várias tabelas numa folhaI tabelas separadas em várias folhasI cabeçalhos das colunas com valores,

não nomes de variáveisI muitas variáveis em uma colunaI variáveis armazenadas em colunas e

linhasI vários tipos de unidades observacionais

na mesma tabela

A B C D E F

1 country year m014 m1524 f014 m1524

2 AD 2000 0 0 3 0

3 AE 2000 2 0 9 13

4 AF 2000 228 124 172 89

5 AG 2000 0 2 5 0

6 AL 2000 186 231 36 95

7 AM 2000 - 4 - 45

8 AN 2000 - - - -

9 AO 2000 89 23 16 64

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 10 / 23

Page 34: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

erros mais comuns

I várias tabelas numa folhaI tabelas separadas em várias folhasI cabeçalhos das colunas com valores,

não nomes de variáveisI muitas variáveis em uma colunaI variáveis armazenadas em colunas e

linhasI vários tipos de unidades observacionais

na mesma tabela

A B C D E F G

1 year artist time track date week rank

2 1988 Pixies 4:22 Gigantic 1999 1 87

3 1988 Pixies 4:22 Gigantic 1999 2 82

4 1988 Pixies 4:22 Gigantic 1999 3 72

5 1988 Pixies 4:22 Gigantic 1999 4 87

6 1988 The Smiths 3:07 Panic 1999 1 23

7 1988 The Smiths 3:07 Panic 1999 2 45

8 1988 The Smiths 3:07 Panic 1999 3 48

9 1988 The Smiths 3:07 Panic 1999 4 62

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 10 / 23

Page 35: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

erros mais comuns

I diferenças entre zeros e umacélula em branco

I deixar em branco célulassemelhantes

I fazer "merge"de colunasI inserir unidades numa célula

A B C D E F

1 country year m014 m1524 f014 m1524

2 AD 2000 0 0 3 0

3 AE 2000 2 0 9 13

4 AF 2000 228 124 172 89

5 AG 2000 0 2 5 0

6 AL 2000 186 231 36 95

7 AM 2000 - 4 - 45

8 AN 2000 - - - -

9 AO 2000 89 23 16 64

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 11 / 23

Page 36: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

erros mais comuns

I diferenças entre zeros e umacélula em branco

I deixar em branco célulassemelhantes

I fazer "merge"de colunasI inserir unidades numa célula

1

2

3

4

5

AA B Cid date glucose

101 2015-06-14 149.3

102 95.3

103 2015-06-18 97.5

104 117.0

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 11 / 23

Page 37: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

erros mais comuns

I diferenças entre zeros e umacélula em branco

I deixar em branco célulassemelhantes

I fazer "merge"de colunasI inserir unidades numa célula

A B C D E

1 1 min 5 min

2 strain wild type toxic

3 A 145 134 167 212

4 B 123 154 243 143

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 11 / 23

Page 38: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

erros mais comuns

I diferenças entre zeros e umacélula em branco

I deixar em branco célulassemelhantes

I fazer "merge"de colunasI inserir unidades numa célula

A

1 Area

2 10 km_square

3 100 m_square

4 1 km_square

A B

1 AreaValue AreaUnit

2 10 km_square

3 100 m_square

4 1 km_square

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 11 / 23

Page 39: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

recomendações

I bons nomes de variáveisI evitar caracteres que possam

causar problemasI adicionar metadadosI utilizar um standard para

valores nulos

good name good alternative avoid

Max_temp_C MaxTemp Maximum Temp (ºC)

Precipitation_mm Precipitation precmm

Mean_year_growth MeanYearGrowth Mean growth/year

sex sex M/F

weight weight W.

cell_type CellType Cell type

Observation_01 first_observation 1st Obs.

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 12 / 23

Page 40: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

recomendações

I bons nomes de variáveisI evitar caracteres que possam

causar problemasI adicionar metadadosI utilizar um standard para

valores nulos

$ @

% # &

* ( )

! / -

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 12 / 23

Page 41: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

recomendações

I bons nomes de variáveisI evitar caracteres que possam

causar problemasI adicionar metadadosI utilizar um standard para

valores nulos

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 12 / 23

Page 42: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

recomendações

I bons nomes de variáveisI evitar caracteres que possam

causar problemasI adicionar metadadosI utilizar um standard para

valores nulos

Null values Problems Compatibility Recommendation

0 Indistinguishable from a true zero Never use

BlankHard to distinguish values that are missing from thoseoverlooked on entry. Hard to distinguish blanks fromspaces, which behave differently.

R, Python, SQL Best option

-999, 999 Not recognized as null by many programs without userinput. Can be inadvertently entered into calculations. Avoid

NA, na

Can also be an abbreviation (e.g., North America), cancause problems with data type (turn a numerical columninto a text column). NA is more commonly recognizedthan na.

R Good option

N/A An alternate form of NA, but often not compatible withsoftware Avoid

NULL Can cause problems with data type SQL Good option

None Uncommon. Can cause problems with data type Python Avoid

No data Uncommon. Can cause problems with data type,contains a space Avoid

Missing Uncommon. Can cause problems with data type

-,+,. Uncommon. Can cause problems with data type Avoid

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 12 / 23

Page 43: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

erros mais comuns

I espaços antes ou depois dotexto

I texto com erros ortográficosI texto auto-convertidosI texto convertido em formula

A

1 species mistake

2 Calidris alpina correct

3 Calidris alpina one space before

4 calidris alpina no capitals

5 Calidris aplina Wrong spelling

6 Calidris alpina One space after

7 Calidris alpine automatic “correction”

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 13 / 23

Page 44: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

erros mais comuns

I espaços antes ou depois dotexto

I texto com erros ortográficosI texto auto-convertidosI texto convertido em formula

A

1 species mistake

2 Calidris alpina correct

3 Calidris alpina one space before

4 calidris alpina no capitals

5 Calidris aplina Wrong spelling

6 Calidris alpina One space after

7 Calidris alpine automatic “correction”

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 13 / 23

Page 45: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

erros mais comuns

I espaços antes ou depois dotexto

I texto com erros ortográficosI texto auto-convertidosI texto convertido em formula

A

1 species mistake

2 Calidris alpina correct

3 Calidris alpina one space before

4 calidris alpina no capitals

5 Calidris aplina Wrong spelling

6 Calidris alpina One space after

7 Calidris alpine automatic “correction”

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 13 / 23

Page 46: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

erros mais comuns

I espaços antes ou depois dotexto

I texto com erros ortográficosI texto auto-convertidosI texto convertido em formula

Dec01

01 December 2001

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 13 / 23

Page 47: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

recomendações

I utilizar tabelas de validaçãoI evitar inserir duas vezes a

mesma informaçãoI utilizar fórmulas de ligação de

tabelas (e.g., VLOOKUP)

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 14 / 23

Page 48: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

recomendações

I utilizar tabelas de validaçãoI evitar inserir duas vezes a

mesma informaçãoI utilizar fórmulas de ligação de

tabelas (e.g., VLOOKUP)

A B C D E F G

1 year artist time track date week rank

2 1988 Pixies 4:22 Gigantic 1999 1 87

3 1988 Pixies 4:22 Gigantic 1999 2 82

4 1988 Pixies 4:22 Gigantic 1999 3 72

5 1988 Pixies 4:22 Gigantic 1999 4 87

6 1988 The Smiths 3:07 Panic 1999 1 23

7 1988 The Smiths 3:07 Panic 1999 2 45

8 1988 The Smiths 3:07 Panic 1999 3 48

9 1988 The Smiths 3:07 Panic 1999 4 62

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 14 / 23

Page 49: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

recomendações

I utilizar tabelas de validaçãoI evitar inserir duas vezes a

mesma informaçãoI utilizar fórmulas de ligação de

tabelas (e.g., VLOOKUP)

A B C

1 species_id species count

2 CAL_ALP Calidris alpina 3

3 POR_POR Porphyrio porphyrio 43

4 POR_POR Porphyrio porphyrio

A B C

1 species_id species family

2 CAL_ALP Calidris alpina Scolopacidae

3 POR_POR Porphyrio porphyrio Rallidae

4 LAR_FUS Larus fuscus Laridae

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 14 / 23

Page 50: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

Problemas

I formatação automáticaI transformar texto em datas

(e.g., DEC1)I datas menores que 1899 não

existemI internamente, datas são

armazenadas como integrais

Dec01

01 December 2001

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 15 / 23

Page 51: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

Diferentes sistemas - Windows vs OSX

I 1900 sistema de datas - WindowsI 1904 sistema de datas - OSXI diferença de 1.462 diasI e.g., 5 de Julho, 1998 pode ser dois

números diferentes35981 (sistema 1900) e 34519 (sistema1904)

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 16 / 23

Page 52: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

Diferentes sistemas - Windows vs OSX

I 1900 sistema de datas - WindowsI 1904 sistema de datas - OSXI diferença de 1.462 diasI e.g., 5 de Julho, 1998 pode ser dois

números diferentes35981 (sistema 1900) e 34519 (sistema1904)

1998-07-05

35.981windows mac

34.519

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 16 / 23

Page 53: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

datas - YYYY-MM-DD

I "ISO 8601” padrãoI YYYY-MM-DD, como 2013-02-27I colunas para ano, mês, dia, formatadas

como textoI ou como uma linha (YYYYMMDD)

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 17 / 23

Page 54: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

datas - YYYY-MM-DD

I "ISO 8601” padrãoI YYYY-MM-DD, como 2013-02-27I colunas para ano, mês, dia, formatadas

como textoI ou como uma linha (YYYYMMDD)

2019-06-26year month day

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 17 / 23

Page 55: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

datas - YYYY-MM-DD

I "ISO 8601” padrãoI YYYY-MM-DD, como 2013-02-27I colunas para ano, mês, dia, formatadas

como textoI ou como uma linha (YYYYMMDD)

2019-06-262019 06 26

20190626

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 17 / 23

Page 56: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

datas - YYYY-MM-DD

I "ISO 8601” padrãoI YYYY-MM-DD, como 2013-02-27I colunas para ano, mês, dia, formatadas

como textoI ou como uma linha (YYYYMMDD)

2019-06-262019 06 26

20190626

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 17 / 23

Page 57: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

formatação como informação

I a cor da fonte ou do fundo dacélula

I tamanho, formas e versões defontes

I difícil de usar como filtroI difícil de atribuir um significado

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 18 / 23

Page 58: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

recomendações

I inserir novas colunasI se ajudar a ler a informação,

utilizar a formataçãocondicional

I utilizar fontes mono-espaçadasI não utilizar comentários para

caracterizar uma coluna, émelhor usar a folha dedescrição dos campos

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 19 / 23

Page 59: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

recomendações

I inserir novas colunasI se ajudar a ler a informação,

utilizar a formataçãocondicional

I utilizar fontes mono-espaçadasI não utilizar comentários para

caracterizar uma coluna, émelhor usar a folha dedescrição dos campos

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 19 / 23

Page 60: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

segurança

I bases de dados têm rotinasinexistentes nas folhas decálculo

I não há controle de versõesI não há registo de alterações

no ficheiroI não há sistemas de

redundância

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 20 / 23

Page 61: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

recomendações

I salvar versões do ficheiro, com umsistema coerente (1.1, 1.1, 2.0 ou data)

I aumentar redundância com cópias desegurança em locais espaciaisdiferentes

I sistemas de backup incremental,"cloning"ou sincronização

I salvar num formato intermédio baseadoem ficheiros de texto (e.g., commaseparated values - csv)

I não mexer nos dados originais

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 21 / 23

Page 62: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

recomendações

I salvar versões do ficheiro, com umsistema coerente (1.1, 1.1, 2.0 ou data)

I aumentar redundância com cópias desegurança em locais espaciaisdiferentes

I sistemas de backup incremental,"cloning"ou sincronização

I salvar num formato intermédio baseadoem ficheiros de texto (e.g., commaseparated values - csv)

I não mexer nos dados originais

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 21 / 23

Page 63: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

recomendações

I salvar versões do ficheiro, com umsistema coerente (1.1, 1.1, 2.0 ou data)

I aumentar redundância com cópias desegurança em locais espaciaisdiferentes

I sistemas de backup incremental,"cloning"ou sincronização

I salvar num formato intermédio baseadoem ficheiros de texto (e.g., commaseparated values - csv)

I não mexer nos dados originais

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 21 / 23

Page 64: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

recomendações

I salvar versões do ficheiro, com umsistema coerente (1.1, 1.1, 2.0 ou data)

I aumentar redundância com cópias desegurança em locais espaciaisdiferentes

I sistemas de backup incremental,"cloning"ou sincronização

I salvar num formato intermédio baseadoem ficheiros de texto (e.g., commaseparated values - csv)

I não mexer nos dados originais

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 21 / 23

Page 65: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

para ler

I Introduz o conceito de Tidy DataHickham, 2014

I Conselhos para disponibilização de dadosWhite, 2013

I Boas prácticas de uso de folhas de cálculoBroman and Woo, 2018

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 22 / 23

Page 66: Publicação de dados - GBIF | Qualidade e limpezafolhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação

folhas de Cálculo folha de cálculo vs base de dados dados limpos erros - estruturais erros - dados erros - datas erros - formatação proteção dos dados

Ricardo Jorge [email protected]

Investigador CIBIO-UPCentro de Investigação emBiodiversidade e Recursos Genéticos

Curador MHNC-UPMuseu de História Natural edas Ciências da Universidade do Porto

Este conteúdo é disponibilizado sob licença em acessoaberto https://creativecommons.org/licenses/by-sa/4.0/

Ricardo Jorge Lopes Publicação de dados - GBIF | Qualidade e limpeza 26 Junho 2019 23 / 23