ESTRUTURAS DE DADOS ESPACIAIS Capítulo 7. ALGUMAS QUESTÕES RELACIONADAS COM OS DADOS a) Em que...
Transcript of ESTRUTURAS DE DADOS ESPACIAIS Capítulo 7. ALGUMAS QUESTÕES RELACIONADAS COM OS DADOS a) Em que...
ESTRUTURAS DE DADOS ESPACIAIS
Capítulo 7
ALGUMAS QUESTÕES RELACIONADAS COM OS DADOS
a) Em que época os dados foram coletados?
b) Qual a fonte de dados?
c) Em qual formato dos dados foram originalmente coletados?
d) Qual é a área coberta pelos dados?
e) Qual foi a escala do mapa utilizada para digitalização?
f) Quais foram os sistemas de coordenadas e projeções e qual foi o datum?
g) Qual foi a densidade de observações usada para compilação?
h) Qual a acurácia das feições no que se refere às posições e atributos?
g) Qual é a consistência e a lógica dos atributos?
h) Como os dados foram testados?
Tipos de Dados Espaciais• Contínuos: elevação, precipitação salinidade do oceano• Areas:
– Sem limites definidos: uso da terra, tipos de rochas e solos
– Com limites definidos: cidade/município/estado, lotes de terra, zoneamento
– Movimento: massas de ar, animais selvagens, cardume de peixes
– redes: estradas, linhas de transmissão, rios• Pontos:
– fixos: endereços, ruas, muros– móveis: carros, peixes
LIN
HA
S
COLUNAS
CAMPO
(b)
(a) (c)
Y
X
REPRESENTAÇÃO DE DADO VETORIAL (1) E RASTER (2)
0 1 2 3 4 5 6 7 8 90 R T1 R T2 H R3 R4 R R5 R6 R T T H7 R T T8 R9 R
Mundo real
Representação Vetorial Representação Raster
Conceito de Vetor e Raster
line
polygon
point
Representando os Dados Usando Modelo Raster
• Área é coberta por grid com células de tamanho igual
• Células são chamadas de pixel e dados raster são chamados dados de imagem
• atributos são registrados para cada célula com um único valor baseado na feição majoritária tais como uso da terra
• Adequado para fazer análises de overlays. “Apenas” combinando valores correspondentes de células: “produção= chuva + fertilizantes
• Sistema de gerenciamento de dados não requerido (ainda que muitos sistemas SIG os incorporam)
milho
trigo
uva
hort
aliç
as
uvasoja
0 1 2 3 4 5 6 7 8 90123456789
1 1 1 1 1 4 4 5 5 51 1 1 1 1 4 4 5 5 51 1 1 1 1 4 4 5 5 51 1 1 1 1 4 4 5 5 51 1 1 1 1 4 4 5 5 52 2 2 2 2 2 2 3 3 32 2 2 2 2 2 2 3 3 32 2 2 2 2 2 2 3 3 32 2 4 4 2 2 2 3 3 32 2 4 4 2 2 2 3 3 3
Formatos para Dados de Origem Raster
• GRID - Formato do ArcGIS para armaezenar e processar dados raster
• Formatos comerciais padrões para dados de imagens tais como JPEG, TIFF and MrSid data, mas não para análise (devem ser convertidos para GRID)
• Informações de georefereciamento é requerido para mostrar imagens juntamente com dados vetoriais.
CompressãoCompressão
• Fenômenos geográficos frequentemente mostram um determinado grau de autocorrelação espacial: valores similares próximos de cada um; portanto ocorrem blocos de células em modelos raster com o mesmo valor.
DADOS RASTER
• Estas considerações são usadas nos Estas considerações são usadas nos
métodos de compressão:métodos de compressão:
CÓDIGO DE CADEIAS
RUN-LENGTH ENCODING (RLE)
MODELOS HIERÁRQUICOS, em que se
destacam o QUADTREE.
• Para ilustrar as diferenças entre estas estruturas, utilizaremos uma matriz composta por 8 LINHAS e 8 COLUNAS, na qual estão codificadas três feições do mundo real (tipos de solo 1, 2 e 3), que podem ser armazenadas em um arquivo contendo 64 unidades de bytes.
REPRESENTAÇÃO MATRICIAL DE 3 DIFERENTES TIPOS DE SOLO
1
22222222
23322222
23322222
22222111
22222111
22222111
2221111
22211111
O CÓDIGO DE CADEIAS usa uma notação particular, os algarismos0, 1, 2 e 3 servem como bases representando direções ESTE,
SUL, OESTE e NORTE, respectivamente. A partir linha 1 e coluna 1, no sentido anti-horário, os dados são organizados segundo determinada categoria. Assim, parte da categoria 1está codificada como: 15, 03, 35, 23. A estruturação em código de cadeias reduziu o tamanho do arquivo em 8 unidades de
bytes.
REPRESENTAÇÃO MATRICIAL DE 3 DIFERENTES TIPOS DE SOLO
1
22222222
23322222
23322222
22222111
22222111
22222111
2221111
22211111
O principio do RLE (Run-Length Encoding) consiste em que pixels adjacentes tendo o mesmo atributo são combinados
juntos, como uma tira, representada por um par de números. Cada nova linha inicia uma nova tira..
EXEMPLO: Para a nossa matriz temos: LINHA 1: (5,1), (3,2); LINHA 2: (5,1), (3,2); LINHA 3: (3,1), (5,2); LINHA 4: (3,1), (5,2); LINHA 5: (3,1), (5,2); LINHA 6: (5,2), (2,3), (1,2); LINHA 7: (5,2), (2,3), (1,2); LINHA 8: (8,2).
Run-length encodingRun-length encoding
• Ele agrupa células de mesmo valor linha por linhaEle agrupa células de mesmo valor linha por linha
Exemplo:Exemplo:
Row 1,5,1,3,3Row 2,5,1,3,3 Row 3,7,1,1,3 Row 4,7,1,1,3 Row 5,4,1,4,3 Row 6,4,1,2,2,2,3 Row 7,6,2,2,3 Row 8,7,2,1,3 A=1, B=2, C=3
• Útil quando ocorre poucos atributos;Útil quando ocorre poucos atributos;• Ineficiente quando ocorre um alto grau de variabilidade espacial Ineficiente quando ocorre um alto grau de variabilidade espacial dos dados. dos dados.
A
BC
REPRESENTAÇÃO GRÁFICA DA CODIFICAÇÃO DE DADO RASTER EM ESTRUTURA QUADTREE
1
22222222
23322222
23322222
22222111
22222111
22222111
2221111
22211111
O princípio do QUADTREE é a divisão do dado raster a partir de múltiplos polígonos regulares. Assim, o primeiro quadrado, que compreende toda a
matriz, contém 3 categorias. Este é dividido em sucessivos quadrados, até a unidade fundamental, que é o pixel.
QuadtreeQuadtree
A
BC
NW NE SW SE 3 3 2 3
NW 1
NE SW SE
NW NE SW SE 1 1 2 2
NW NE SW SE 1 3 1 3
NW NE SW SE 3 1
NW NE SW SE 1 3 1 3
NW NE SW SE 3 3 2 2
NW NE SW SE 3 2
ROOT
Estruturas de Dados para Modelos
Vetoriais
• Representa a localização espacial de objetos de maneira explícita;
• O espaço existente entre entidades gráficas não precisa ser armazenado;
• Dois tipos de modelos: spaghetti e topológico.
Estrutura Spaghetti• Estrutura vetorial mais simples
(Dangermond, 1982);• Tradução direta do mapa analógico
linha por linha;• O mapa é mantido como modelo
conceitual;• Cada entidade do spaghetti age como
uma entidade simples: curta para pontos, longos para segmentos de reta e coleções de segmentos de linhas que se juntam no início e fim de áreas vizinhas;
• Lados adjacentes de um polígono são gravados separadamente no computador.
Ex: O SIG IDRISI utiliza este modelo para arquivar e representar os PIs.
Arquivos de linhas e atributos
Arquivos de polígonos
Vantagens: Eficiente para propósitos de visualização
Desvantagens:• Redundância de dados• Não há informação sobre vizinhança de polígonos• Não existe maneira de verificar a topologia das fronteiras, se os polígonos fecham corretamente;• Em polígonos, a segunda versão de cada linha levando a criação de buracos espúrios (slivers)
Representando Dados Pontuais using o Modelo Vetorial
Coordinates TablePoint ID x y
1 1 32 2 13 4 14 1 25 3 2
1
2 3
4
5
X
Y
• Feições (coverage) tem um único identificador - point ID, polygon ID, arc ID, etc
• identificadores comuns possibilitam ligar para:
– tabela de coordenadas (para “onde”)
– tabela de atributos (para o quê)Attributes Table
Point ID model year1 a 902 b 903 b 804 a 705 c 70
•Again, concepts are those of a relational data base, which is really a prerequisite for the vector model
Estrutura Topológica• Área da matemática que estuda o relacionamento
espacial entre os objetos, como por exemplo, proximidade e vizinhança;
• Supre a maior fraqueza da estrutura spaghetti pois
permite relacionamentos, tornando mais simples medidas e análises em um SIG;
• Utiliza a teoria matemática dos grafos e emprega dois elementos:
Arcos – são usados para modelar as fronteiras dos polígonos delimitando objetos que definem áreas;
Nós – define o ponto de interseção de dois ou mais arcos
• Cada arco é capaz de “olhar” para a esquerda e direita dos números dos polígonos e decidir quais polígonos são adjacentes ao longo do seu percurso.
Node TableNode ID Easting Northing
1 126.5 578.12 218.6 581.93 224.2 470.44 129.1 471.9
Node Feature Attribute TableNode ID Control Crosswalk ADA?
1 light yes yes2 stop no no3 yield no no4 none yes no
Arc TableArc ID From N To N L Poly R PolyI 4 1 A34II 1 2 A34III 2 3 A35 A34IV 3 4 A34 Polygon Feature AttributeTable
Polygon ID Owner AddressA34 J. Smith 500 BirchA35 R. White 200 Main
Polygon TablePolygon ID Arc ListA34 I, II, III, IVA35 III, VI, VII, XI
Arc Feature Attribute TableArc ID Length Condition Lanes NameI 106 good 4II 92 poor 4 BirchIII 111 fair 2IV 95 fair 2 Cherry
Birch
Cherry
I
II
III
IV
1
4 3
Poligono Arco/Nó e Dados de Atributo
Dados EspaciaisDados de Atributo
A35SmithEstateA34
2
* A topologia requer todos os arcos conectados, todos os polígonos fechados e todos os nós perdidos removidos;
* Muitos programas de digitalização permitem o uso de uma função de fechamento de polígonos – snap. Se dois vértices estiverem a uma distância menor que a tolerância (por ex., 1
mm) eles serão unidos para fechar um nó, fechando o polígono;
* Programas atuais dispõe de muitas funções que tornam o processo de vetorização bem mais eficiente que alguns anos
atrás
Formatos para Dados Vetoriais
Coverage: formato vetorial introduzido com ArcInfo em 1981 • Arquivos múltiiplos (12 ou mais) em um folderShape ‘file’: formato vetor introduzido pelo ArcView em 1993• Compreende vários (no mínimo três) arquivos de discos
(com extensão .shp, .shx, .dbf), no qual todos devem estar presentes
Geodatabase: novo formato introducido com ArcGIS 8.0 em 2000
• Múltiplas camadas salvas em um só arquivo .mdb
Shapefiles são os formatos mais simples e mais comumente usados.
Conversão Entre Modelo Matricial e Vetorial
• Matriz para vetor – áreas que contém o mesmo valor de célula são convertidos para polígonos com valores de atributos equivalentes aos valores das células;
• Vetor para Matriz – cada célula que pertença a um polígono recebe um valor igual ao atributo do polígono .
• Matriz para vetor é mais complexa pois um dos pontos fracos do modelo matricial é a sua baixa precisão geográfica. Além disto é necessário criar informações topológicas e identificar atributos individuais.
• A conversão do formato vetorial para matricial é mais simples porque nem toda informaçõa topológica do dado vetorial precisa ser transferida para o modelo vetorial.
Representando Superfícies
Tongariro National ParkNorth IslandNew Zealand
Representando Superfícies• Superfícies envolvem um terceiro valor de
elevação (z) em adição aos valores x, y horizontais. Superfícies são difíceis para representar pois ocorrem um número infinito de pontos para modelar.
• Três ou (quatro) abordagens principais: - Raster-based digital elevation model
• Regular spaced set of elevation points (z-values)– Vector based triangulated irregular networks
• Irregular triangles with elevations at the three corners
– Vector-based contour lines• Lines joining points of equal elevation, at a
specified interval
x
y
z
Digital Elevation Model
• a sampled array of elevations (z) that are at regularly spaced intervals in the x and y directions. – A surface grid considers each sample
as a square cell with a constant surface value.
Advantages• Simple conceptual model• Data cheap to obtain• Easy to relate to other
raster data• Irregularly spaced set of
points can be converted to regular spacing by interpolation
Disadvantages• Does not conform to
variability of the terrain• Linear features not well
represented
Triangulated Irregular Network
• Advantages– Can capture significant
slope features (ridges, etc)
– Efficient since require few triangles in flat areas
– Easy for certain analyses: slope, aspect, volume
• Disadvantages– Analysis involving
comparison with other layers difficult
a set of adjacent, non-overlapping triangles computed from irregularly spaced points, with x, y horizontal coordinates and z vertical elevations.
TIN: Triangulated Irregular Network Surface
A B
CD
6
12
3
4
5
E
F
GH
Elevation points (nodes) chosen based on relief complexity, and then their 3-D location (x,y,z) determined.
Node # X Y Z1 0 999 14562 525 1437 14373 631 886 1423
etc
PontosPolygon Node #s Topology
A 1,2,4 B,DB 2,3,4 A,E,CC 3,4,5 B,F,GD 1,4,6 A,H
etc
Elevation points connected to form a set of triangular polygons; these then represented in a vector structure.
Polígonos Polygons Var 1 Var 2
A 1473 15B 1490 100C 1533 150D 1486 270
etc.
Atributo vs Base de Dados
Attribute data associated via relational DBMS (e.g. slope, aspect, soils, etc.)
Advantages over raster:•fewer points•captures discontinuities (e.g ridges)•slope and aspect easily recordedDisadvans.: Relating to other polygons for map overlay is compute intensive (many polygons)
Contour (isolines) LinesAdvantages• Familiar to many people• Easy to obtain mental picture of surface
– Close lines = steep slope– Uphill V = stream– Downhill V or bulge = ridge– Circle = hill top or basin
Disadvantages• Poor for computer representation: no
formal digital model• Must convert to raster or TIN for
analysis• Contour generation from point data
requires sophisticated interpolation routines (Surfer, ArcGIS Spatial Analyst extension)
ridge
valley hilltop
Contour lines, or isolines, of constant elevation at a specified interval,
DEM vs TIN
DEM
TIN
• “Computador é um estúpido de alta velocidade”
• Nos SIGs as saídas gráficas de alta qualidade passa a idéia de alta qualidade dos SIGs;
• Os dados analógicos não tem qualidade similar;
• Grupo de usuários sem conhecimentos de cartografia
QUALIDADE DE DADOS E ERROS
• Nenhum mapa armazenado em um SIG está livre de erro;
• Erros podem variar de sérios a negligenciáveis;• Algumas fontes de erros: a) problemas com o
documento de entrada; b) combinação de dados amostrados de formas diferentes; c) diferença de resolução espacial; d) métodos de interpolação inadequado.
• O objetivo de trabalhar com erros não deveria ser eliminá-los mas gerenciá-los” (Aronoff, 1989)
DEFINIÇÃO DE INCERTEZA, PRECISÃO, EXATIDÃO, ACURÁCIA E ERRO
Conceito ou a condição de estar em dúvida sobre um valor;
Grandeza estática que mede a dispersão, sendo, portanto, uma medida de repetibilidade das observações.
É a medida de aproximação entre um modelo matemático e o fenômeno representado.Uma distribuição possui acurácia se, dado algum intervalo de probabilidade, ela contém a resposta verdadeira.
INCERTEZA
PRECISÃO
EXATIDÃO
ACURÁCIA
ERROÉ a diferença entre um valor medido ou calculado e o valor correto.
REPRESENTAÇÃO ESQUEMÁTICA DA EXATIDÃO, PRECISÃO E ACURÁCIA
Exatidão
Precisão
Valor verdadeiro
Um dosprocedimentos mais simples é determinar os
ERROS DE COMISSÃO (EC) e de OMISSÃO (EQ), que variam entre 0 e 1 (maior erro).
ERRO DE COMISSÃO (EC)
ERRO DE OMISSÃO (EO)
Para garantir a qualidade dos dados em um SIG, é indispensável que sejam realizados testes para garantir a
acurácia dos dados, uma vez que é praticamente impossível um SIG trabalhar com dados exatos. Um dos
procedimentos mais simples é determinar os ERROS DE COMISSÃO (EC) e de OMISSÃO (EQ), que variam
entre 0 e 1 (maior erro).
ERRO DE COMISSÃO (EC)
ERRO DE OMISSÃO (EO)
É aquele decorrente da interpretação de pixels que nãoexistem no terreno.
É a não interpretação de pixels existentes no terreno.
1º EXEMPLO PRÁTICO Imaginemos que um MAPA DE SOLO foi produzido a partir de interpretações de IMAGENS DE SATÉLITE, tendo sido identificados os seguintes tipos de solo: ARENOSO, ARGILOSO,ARENO-ARGILOSO e ARGILO-ARENOSO. O mapa Pedológico produzido apresentou 64 PIXELS que representam os solos (MAPA PEDOLÓGICO INTERPRETADO):
ARENOSO = CATEGORIA 1; ARGILOSO = CATEGORIA 2; ARENO-ARGILOSO = CATEGORIA 3; ARGILO-ARENOSO = CATEGORIA 4.
Ainda nesta situação hipotética foram realizadas etapas de campo e produzido um MAPA DE SOLOS “REAL”. Embora o número de pixels seja o mesmo, há diferenças entre os dois. Para analisar quantitativamente a ACURÁCIA, foram calculados o EC e o EO.
MAPA PEDOLÓGICO INTERPRETADO (IMAGEM SATÉLITE)
22113333
22114333
22444444
22322222
23322222
33322111
43322111
33322111
Colunas
Lin
has
87654321
8
7
6
5
4
3
2
1
CATEGORIA 1 (Total: 13 Pixels): L1,C1; L1,C2; L1,C3; L2,C1; L2,C2; L2,C3; L3,C1; L3,C2; L3,C3; L7,C5; L7,C6; L8,C5; L8,C6.
11
11
11
111
111
1
CATEGORIA 2 (Total: 25 Pixels): L1,C4; L1,C5; L2,C4; L2,C5; L3,C4; L3,C5; L4,C1; L4,C2; L4,C4; L4,C5; L4,C8; L5,C1; L5,C2; L5,C3; L5,C4; L5,C5; L5,C7; L5,C8; L6,C7; L6,C8; L7,C7; L7,C8; L8,C7; L8,C8.
22
22
22
2222222
222222
22
22
22
CATEGORIA 3 (Total: 18 Pixels): L1,C6; L1,C7; L1,C8; L2,C6; L2,C7; L3,C6; L3,C7; L3,C8; L4,C6; L4,C7; L5,C5; L7,C1; L7,C2; L7,C3; L8,C1; L8,C2; L8,C3; L8,C4.
3333
333
3
33
333
33
333
CATEGORIA 4 (Total: 8 Pixels): L2,C8; L6,C1; L6,C2; L6,C3; L6,C4; L6,C5; L6,C6; L7,C4.
4
444444
4
MAPA PEDOLÓGICO REAL (TRABALHO DE CAMPO)
44444444
22444433
22444444
12322222
11322222
13222111
33221111
33222111
Colunas
Lin
has
87654321
8
7
6
5
4
3
2
1
CATEGORIA 1 (Total: 15 Pixels): L1,C1; L1,C2; L1,C3; L1,C4; L2,C1; L2,C2; L2,C3; L2,C4; L3,C1; L3,C2; L3,C3; L3,C8; L4,C7; L4,C8; L5,C8.
1
11
1111
1111
111
2
22
CATEGORIA 2 (Total: 22 Pixels): L1,C5; L1,C6; L2,C5; L2,C6; L3,C4; L3,C5; L3,C6; L4,C1; L4,C2; L4,C3; L4,C4; L4,C5; L5,C1; L5,C2; L5,C3; L5,C4; L5,C5; L5,C7; L6,C7; L6,C8; L7,C7; L7,C8.
22
22
22222
22222
2
22
222
CATEGORIA 3 (Total: 9 Pixels): L1,C7; L1,C8; L2,C7; L2,C8; L3,C7; L4,C6; L5,C6; L7,C1; L7,C2.
33
3
3
3
33
33
CATEGORIA 4 (Total: 18 Pixels): L6,C1; L6,C2; L6,C3; L6,C4; L6,C5; L6,C6; L7,C3; L7,C4; L7,C5; L7,C6; L8,C1; L8,C2; L8,C3; L8,C4; L8,C5; L8,C6; L8,C7; L8,C8.
44444444
4444
444444
UTILIZANDO OS DADOS CONTIDOS NOS EXEMPLOS ANTERIORES,
TABELA DE VALIDAÇÃO CRUZADA PARA CÁLCULO DE EC E EQ
(1 - 44/64) 0,31
-(1 - 7/18)
0,61(1 - 8/9)
0,11(1 - 20/23)
0,13(1 - 9/14)
0,36Erro de
Omissão
-641892314TOTAL
(1 – 7/8) 0,1387100
Argilo-arenoso
(4)
(1 - 8/17) 0,53
175831Areno-
argiloso (3)
(1 - 20/23) 0,13
2620204Argiloso
(2)
(1 - 9/13) 0,31
134009Arenoso
(1)
Erro de ComissãoTOTAL
Argilo-arenoso
(4)
Areno-argiloso
(3)
Argiloso (2)
Arenoso (1)
Map
a In
terp
reta
do
Mapa Real
Percebe-se que o menor ERRO DE OMISSÃO refere-se ao SOLO ARENO-ARGILOSO (0,11), ou seja, somente 1 pixel encontrado no mapa
real não correspondeu ao seu equivalente no mapa interpretado.
Percebe-se que o menor ERRO DE COMISSÃO refere-se ao SOLO ARENO-ARENOSO (0,12), ou seja, somente 1 pixel encontrado no mapa
interpretado não correspondeu ao seu equivalente no mapa real (no campo).