The Global Biodiversity Information Facility Aspectos ... · necessário para implementação e...

31
Programa de Ciência e Tecnologia para Gestão de Ecosistemas Ação "Métodos, modelos e geoinformação para a gestão ambiental” The Global The Global Biodiversity Information Facility Biodiversity Information Facility Aspectos Aspectos Técnicos Técnicos da da Participação do Participação do Brasil Brasil Frederico Torres Fonseca (Penn State University) Relatório Técnico Fevereiro, 2001

Transcript of The Global Biodiversity Information Facility Aspectos ... · necessário para implementação e...

Programa de Ciência e Tecnologia para Gestão de EcosistemasAção "Métodos, modelos e geoinformação para a gestão

ambiental”

The Global The Global Biodiversity Information FacilityBiodiversity Information Facility Aspectos Aspectos Técnicos Técnicos da da Participação do Participação do BrasilBrasil

Frederico Torres Fonseca (Penn State University)

Relatório Técnico

Fevereiro, 2001

Introdução

Este relatório tem como objetivo analisar o consórcio Global Biodiversity InformationFacility (GBIF) e os aspectos técnicos da participação do Brasil neste consórcio. Aquisão discutidos as questões relativas a recursos de computador, infra-estrutura,programas, e padrões de trocas de dados. As vantagens e desvantagens do ponto de vistada troca de informações sobre a biodiversidade não são tratadas neste relatório. Damesma forma, a questão de direitos autorais sobre as informações a seremcompartilhadas, uma das preocupações do GBIF, também não é discutida nestedocumento.

Na primeira parte deste documento fazemos uma introdução sobre o que é o GBIF.Então apresentamos uma breve descrição técnica do GBIF e depois introduzimos umarevisão sobre o estado atual da Interoperabilidade, um problema básico a ser resolvidopara a implementação do programa do GBIF.

Na segunda parte deste documento analisamos tecnicamente o plano do GBIF.Primeiramente as questões relativas a padrões de intercâmbio de dados, softwarenecessário para implementação e integração semântica de informações são analisadassob o ponto de vista do GBIF, o que o se pretende, qual a estratégia e os recursosnecessários para se implantar estas etapas. Depois fazemos uma descrição daspossibilidades técnicas para a implementação das propostas do GBIF. Por últimoapresentamos uma sugestão de como o Brasil pode usar o programa GBIF para ir alémdo que está proposto e desenvolver recursos preciosos na luta pelo domínio datecnologia da informação sobre a biodiversidade.

1. GBIF

1.1. GBIF - O que é?

O Sistema Integrado de Biodiversidade Mundial (Global Biodiversity Information Facility- GBIF) (GBIF 2000) será uma rede interoperável de bancos de dados sobrebioversidade. O sistema contará também com uma série de ferramentas que vãopermitir ao usuário navegar e usar a grande quantidade de informações sobrebiodiversidade atualmente existente. Os resultados esperados são benefícioseconômicos, ambientais e sociais a nível nacional e internacional, como por exemplo, osuporte mais efetivo ao desenvolvimento sustentável. O GBIF nasceu do fórumcientífico Megascience Forum Working Group on Biological Informatics da Organizationfor Economic Co-operation and Development (OECD) (OECD 1999) que ocorreu em1999. Os participantes do fórum concluíram que:

• apesar o domínio da biodiversidade ser muito vasto e complexo, sua importânciafundamental para a sociedade;

• os sistemas atuais de biodiversidade não são de fácil acesso e nem tão úteis comoeles poderiam ser;

• existem oportunidades tecnológicas e políticas atualmente para desenvolvimentodeste tipo de sistema principalmente para os países participantes da OECD.

De 1999 para cá algumas coisas mudaram, como por exemplo, o aparecimento desistemas de biodiversidade com amplo acesso público, mas limitado a nível nacional. NoBrasil podemos citar o BIOTA-SP, e no exterior Diversitas, Species 2000, US IntegratedTaxonomic Information System e Clearing House Mechanism. Também as condiçõespolíticas para o desenvolvimento de ações orientadas para ecologia podem sofrerimpacto com as mudanças de governo, como é o caso da eleição de George W. Bushpara o a presidência dos Estados Unidos (participante do OECD) em detrimento de AlGore que favorecia uma política mais firme de defesa do meio ambiente.

Mesmo assim, em dezembro de 2000 o GBIF teve sua primeira reunião e propôs oinício dos trabalhos com o objetivo de criar uma rede internacional e interoperável deinformações sobre a biodiversidade.

1.2. Produtos do GBIF

O consórcio GBIF pretende atuar como um integrador de serviços e informações. Alémdisto, o GBIF pretende incentivar a produção de dados sobre biodiversidade, suaconversão para meio digital, e seu compartilhamento. É importante esclarecer que oGBIF não vai criar dados novos, mas sim incentivar e apoiar sua criação, e administrarseu compartilhamento.

Para cumprir este papel integrador de serviços e informações é necessário que o GBIFdesenvolva ou promova o desenvolvimento de:

• s o f t w a r es o f t w a r e : a integração de informações envolve o uso de várias camadas desoftware. As camadas mais baixas responsáveis por protocolos de rede e similaresestão bastante desenvolvidas e esta não é uma das preocupações do GBIF. Mas ascamadas mais altas, responsáveis pela conexão entre as fontes de dados e asinterfaces de usuário terão de ser desenvolvidos.

• i n t e r f a c e si n t e r f a c e s : a proposta de dar acesso a um tipo de informação tão rica como abiodiversidade e com um universo de usuários tão variado gera questões bastantedelicadas para a especificação da interface de usuário. Isto gera implicações tanto aonível de software básico quanto ao nível de especificação formal da interface com oobjetivo de facilitar o acesso as informações de forma fácil e racional.

• acordosacordos : a distribuição de informações sobre a biodiversidade é consideradasensível por muitos governos. Também o aspecto do valor comercial da informaçãodeve ser levado em conta. Além disto políticas de acesso e de proteção da

propriedade intelectual das informações devem ser estabelecidas. Tudo isto só podeser alcançado através de acordos diversos entre os participantes do consórcio.

• i n d e x a ç ã o / o r g a n i z a ç ã o d e i n f o r m a ç õ e si n d e x a ç ã o / o r g a n i z a ç ã o d e i n f o r m a ç õ e s : a quantidade deinformações sobre biodiversidade é muito grande. Sem uma organizaçãosistemática destas informações elas perdem boa parte de seu valor. O GBIFdeve não só gerar índices para estas informações, mas antes disto, discutir eestabelecer qual as melhores formas de acesso a elas.

• p a d r õ e s p a r a t r o c a d e i n f o r m a ç õ e sp a d r õ e s p a r a t r o c a d e i n f o r m a ç õ e s : as informações que serãointegradas pelo GBIF estão não só em sistemas de bancos de dados diferentesmas também em línguas diferentes. Além disto, elas podem refletirdiferentes visões de mundo. Desta forma é necessário o estabelecimento depadrões de intercâmbio de informações que permitam o fluxo deconhecimento sem perda de valor.

1.3. A BIOINFORMÁTICA: um Produto?

A bioinformática é a integração da Biologia e da Ciência da Informação. Seus principaisinteresses são o desenvolvimento, compartilhamento, e análise de dados biológicos.Estes dados geralmente são bastante complexos e se apresentam em grandes volumes.A bioinformática é considerada hoje uma disciplina independente. Além disto é umaárea de intenso crescimento comercial gerando novos empregos e oportunidades denegócios. Ela deverá influenciar nossa sociedade de forma marcante nos próximosanos. A bioinformática inclui:

• I n f o r m á t i c a M o l e c u l a r o u G e n é t i c a :I n f o r m á t i c a M o l e c u l a r o u G e n é t i c a : que envolve o uso de bancos comseqüências de DNA para se descobrir o funcionamento do gene e como ele pode sercontrolado.

• I n f o r m á t i c a M é d i c a : I n f o r m á t i c a M é d i c a : inclui a visualizações de imagens médicas emcomputadores com o objetivo de executar simulações anatômicas. Inclui também aneuro-informática que usa um modelo computacional representando ofuncionamento do cérebro.

• I n f o r m á t i c a d a B i o d i v e r s i d a d e : I n f o r m á t i c a d a B i o d i v e r s i d a d e : é a conversão para meio digital dasinformações sobre biodiversidade disponíveis atualmente em livros, fichas, catálogose até mesmo em meios digitais obsoletos.

• I n f o r m á t i c a d o I n f o r m á t i c a d o M e i o - A m b i e n t e : M e i o - A m b i e n t e : a combinação da Informática daBiodiversidade com os Sistemas e Informações Geográficos. Ela pode gerar modelosde previsão de ocorrência de espécies para uso em planejamento ambiental. Assimuma nova dimensão da tradicional ecologia de campo é gerada.

1.4. O Brasil e o GBIF

Os países interessados em participar do GBIF devem assinar um documento deintenções chamado Memorandum of Understanding for the Global BiodiversityInformation Facility (MOU). Neste documento os países participantes se comprometema investir em atividades a nível nacional e internacional relacionadas aos objetivosbásicos do GBIF.

O Brasil como participante do GBIF terá de providenciar financiamento ou fomentaratividades relacionadas a (1) conversão para meio digital de informações já existentesem outros meios, (2) estabelecimento de uma estrutura de rede de computadores paradivulgação destas informações, e (3) compilação e organização destas informações deforma a facilitar o acesso público a elas através de interfaces a serem padronizadas pelodo GBIF.

Além disto, o Brasil como participante deverá cooperar ativamente na formulação eimplantação do programa básico do GBIF, promover o compartilhamento deinformações sobre biodiversidade usando os padrões escolhidos pelo GBIF eprincipalmente criar os chamados nós nacionais.

Um nó nacional consiste de um ponto de rede que permita acesso público e que forneçainformações sobre a biodiversidade no Brasil de forma interoperável. Este nó deveráservir como ponto de encontro para as iniciativas nacionais sobre biodiversidade. Eleserve ao mesmo tempo para que o país compartilhe seus dados com a rede do GBIF etambém para que o GBIF possa tomar conhecimento dos projetos relacionados a estainiciativa em andamento no país.

Do ponto de vista técnico, um nó é um ponto de rede de computador que permite oacesso e a pesquisa em tempo real a bancos de dados contendo metadados sobre abiodiversidade no Brasil. Por exemplo, informações sobre espécies, catálogos,bibliografia, seqüências de DNA, e ecossistemas. Estes metadados deverão estarespecificados em padrões a serem definidos pelo GBIF. Cada nó também deverápublicar de forma explícita a sua política com relação à propriedade intelectual sobre ainformação disponível no local. Cada nó poderá também ter informações sobreprogramas de computador que auxiliem na manipulação e validação dos dadosdisponíveis. Não existe uma limitação com relação ao número de nós que cadaparticipante poderá ter.

1.5. Iniciativas de Biodiversidade

A indústria da informação sobre biodiversidade é considerada como uma das principaiscriadoras de riqueza do futuro. Existe um mercado crescente para diversas formas dedados sobre formações moleculares de espécies e também para informações médicasrelacionadas a produtos biológicos. Este setor também tido uma importância cada vezmaior na hora da tomada de decisões relativas a políticas do meio-ambiente.

Da mesma forma que outros campos da ciência e das atividades inovadoras, aBioinformática é globalizada e existe de uma forma sem fronteiras institucionais. Noentanto este desenvolvimento apresenta desafios relativos a infra-estrutura para aobtenção, armazenamento, recuperação e compartilhamento destas informações.Também a necessidade de se tornar estas informações interoperáveis é premente sejaao nível de sistemas de computação seja ao nível de diferentes campos da ciência. Acompleta integração deste tipo de informação desde o nível molecular ate ao nível deecossistemas é alcançável mas depende de um esforço conjunto internacional como é oGBIF.

A importância de projetos integradores de informações sobre a biodiversidade já estasendo sentida há algum tempo e isto pode ser notado em diversas iniciativas a nívelinternacional e também no Brasil.

1.5.1. Projetos Internacionais de Biodiversidade

Existem alguns projetos sobre biodiversidade a nível internacional. A atuação do GBIFpoderá evitar duplicidade de esforços entre estas iniciativas e também poderá agir comoconcentrador de políticas e prioridades. Em seguida descrevemos brevemente três deles;DIVERSITAS, Species 2000 e Global Taxonomy Initiative.

O projeto DIVERSITAS é uma parceria entre organizações públicas e privadas. Seuobjetivo é promover, facilitar e catalisar projetos de pesquisa sobre biodiversidade. Entreos produtos imediatos estão a produção de compilações de inventários, odesenvolvimento de modelos de previsão de biodiversidade, e a promoção de modelosque levem a uma preservação dos recursos biológicos atuais. Outro objetivo importanteé a formação de recursos humanos especializados em biodiversidade a nível mundial.

O projeto Species 2000 é uma federação de entidades que trabalham combiodiversidade. Não existe restrição a nacionalidade já que esta é uma organizaçãointernacional. O principal objetivo é dar acesso a metadados sobre as espéciesconhecidas usando-se para isto a Internet.

O projeto The Global Taxonomy Initiative (GTI) foi formado como uma tentativa dereação aos conhecidos problemas de se estabelecer taxonomias relativas à conservação econtrole da biodiversidade. O principal objetivo é a formação de recursos humanosatravés de programas de treinamento nacionais e regionais. Além disto o suporte aconservação e desenvolvimento de obras de referência e a infra-estrutura necessáriapara a produção e distribuição de informações sobre taxonomias. A GTI espera que aestrutura a ser lançada pelo GBIF auxilie no suporte de computação necessária paraeste projeto.

1.5.2. Projetos Nacionais de Biodiversidade

Uma das principais iniciativas sobre biodiversidade no Brasil é a Base de Dados Tropicais(BDT). A BDT é um departamento da Fundação André Tosello. A BDT tem como

objetivo a divulgação através de meios eletrônicos de informações sobre biodiversidadeque possam dar apoio ao trabalho da comunidade científica e tecnológica do país. Alémdisto, a BDT pretende contribuir diretamente para a conservação e utilização racionalda biodiversidade no Brasil. O desenvolvimento auto-sustentável só é possível através deuma sociedade informada, com acesso democrático e amplo à informação qualificada esua utilização nos processos de formulação e decisão política.

Outro projeto sobre biodiversidade no Brasil é o BIOTA-SP e sua implementação comosistema de informação em computador, o SIN-BIOTA-SP.

O Programa de Pesquisas em Conservação Sustentável da Biodiversidade do Estado deSão Paulo, denominado BIOTA-SP - O Instituto Virtual da Biodiversidade -, tem comoobjetivo principal inventariar e caracterizar a biodiversidade do Estado de São Paulo.Além disto o BIOTA-SP define mecanismos para a conservação da biodiversidade,propõe políticas para a exploração de seu potencial econômico e sua utilizaçãosustentável.

O BIOTA-SP possui vários objetivos em comum com o GBIF. Entre eles podemos citar:

• o apoio à formação de recursos humanos para subsidiar o estudo dabiodiversidade;

• incentivo ao desenvolvimento de áreas multidisciplinares que apoiem doestudo da biodiversidade, como por exemplo, a bioinformática e os sistemasde informação geográficos;

• incentivo à produção, digitalização, e compartilhamento de dados sobrebiodiversidade;

• incentivo ao estabelecimento de padrões de intercâmbio de informações quepermitam o intercâmbio de conhecimento.

O SIN-BIOTA-SP é uma atividade complementar ao BIOTA-SP. Seus objetivos são (1)colocar disponível on-line uma base cartográfica de São Paulo, (2) criar ferramentas epesquisa de metadados de biodiversidade que auxiliem na pesquisa e na cooperaçãoentre pesquisadores desta área, e (3) a publicação do jornal eletrônico Biota Neotropica,cujo objetivo é disseminar trabalhos científicos em andamento e servir de fórum paradiscussões na área de biodiversidade.

2. Descrição Técnica do GBIF

É importante destacar aqui o papel do GBIF como integrador de informações e serviçose não como fornecedor, ou criador, de um ou de outro. O que será criado dentro doGBIF são catálogos e índices para fontes de informações sobre biodiversidade. Comointegrador, o GBIF terá de trabalhar em conjunto com os fornecedores de informação.Desta forma os sistemas a serem desenvolvidos dentro do contexto do GBIF deverão serdistribuídos, ligados a uma rede com acesso público e com módulos e interfacesinteroperáveis.

2.1. Estratégia

A estratégia do GBIF para alcançar seus objetivos é composta de quatro componentesprincipais. Eles, além de serem interdependentes e interrelacionados, têm tambémáreas de sobreposição. De qualquer maneira eles tem características particularessuficientes para serem classificados da seguinte maneira:

· Administração deConhecimento

· Administração deRecursos Naturais

· Ambiente paraPolíticas de

Biodiversidade Global

· Apoio a PesquisaBiológica

GBIF

• a d m i n i s t r a ç ã o d e r e c u r s o s n a t u r a i s a n í v e l n a c i o n a la d m i n i s t r a ç ã o d e r e c u r s o s n a t u r a i s a n í v e l n a c i o n a l : o homem atuadiretamente sobre o meio-ambiente através da exploração e da constante alteraçãointerferindo assim com diversos ecossistemas. De forma a permitir umacontinuidade desta exploração é necessário que se mude os padrões de atuaçãoexistentes hoje em dia para direção do chamado desenvolvimento sustentável. Paraisto é necessário um conhecimento maior sobre o mundo e seus ecossistemas. OGBIF pretende fornecer recursos em forma de informações sobre a biodiversidadepara ajudar a criação de políticas de controle do meio ambiente que permitam o

desenvolvimento sustentável e a conservação da complexidade e diversidade dossistemas naturais.

• a d m i n i s t r a ç ã o d e c o n h e c i m e n t o s o b r e b i o d i v e r s i d a d e a n í v e la d m i n i s t r a ç ã o d e c o n h e c i m e n t o s o b r e b i o d i v e r s i d a d e a n í v e lm u n d i a lm u n d i a l : o conhecimento sobre a biodiversidade mundial tem sido compiladojá há muitos anos por uma variedade de cientistas, em uma variedade de meios,em diversas línguas, e com qualidade também variável. Isto tudo torna esteconhecimento inconsistente, incompleto e em muitos casos inacessível. Alémdo conhecimento em meios e locais de difícil acesso temos também oconhecimento em poder de povos indígenas. Apenas a conversão destasinformações para meio eletrônico não é suficiente. A integração dos bancos dedados digitais sobre a biodiversidade é outro ponto que deve ser tratado já que agrande abrangência, o grande volume de informações, e a diversidade de usosdestes bancos acabaram gerando uma grande dificuldade de acesso para pessoasnão especializadas. A atuação do GBIF será no sentido de promover ointercâmbio de informações através da introdução de sistemas e padrões queirão auxiliar administradores, curadores e bibliotecários que trabalham combiodiversidade. A base desta contribuição é o catálogo de nomes das espéciesconhecidas e catalogadas por cientistas de biodiversidade.

• a p o i o à p e s q u i s a b i o l ó g i c a a n í v e l n a c i o n a la p o i o à p e s q u i s a b i o l ó g i c a a n í v e l n a c i o n a l : a bioinformática é aintegração da Biologia e da Ciência da Informação e é considerada hoje umadisciplina independente. Seus principais interesses são o desenvolvimento,compartilhamento e análise de dados biológicos. Um dos desafios científicosem bioinformática é converter 25 décadas de conhecimento para o formatodigital. Mas não é apenas a conversão que tem valor, mas sim a correlaçãoque pode ser feita destes dados com outros mais atuais adquiridos poroutros métodos como, por exemplo, imagens obtidas por satélites. O papeldo GBIF será apoiar o desenvolvimento de pesquisas em bioinformática anível nacional. O uso do catálogo de nomes das espécies conhecidas vaiservir como um padrão e irá permitir operações de mineração de dados(data-mining) de uma maneira que hoje ainda não são possíveis porque édifícil descobrir as correlações entre diferentes bancos de dados deinformações sobre biodiversidade.

• a m b i e n t e p a r a p o l í t i c a s d e b i o d i v e r s i d a d e g l o b a la m b i e n t e p a r a p o l í t i c a s d e b i o d i v e r s i d a d e g l o b a l : tomadoresde decisão precisam de informações sobre biodiversidade para formularpolíticas nacionais e internacionais sobre saúde, meio-ambiente,desenvolvimento auto-sustentável e segurança de alimentos. Um dosproblemas atuais é a inexistência de um acesso amplo às informaçõesgenéticas. Um outro é o controle de informações sobre biodiversidade deespécimens coletados em nações em desenvolvimento para o uso científicoem nações desenvolvidas. O GBIF pretende ajudar a resolver este problemadando amplo acesso a este tipo de informação.

2.2. Arquitetura

Para atingir seus objetivos o GBIF propõe uma arquitetura de funcionamento que giraem torno de um catálogo de nomes das espécies conhecidas e catalogadas por cientistasde biodiversidade. Este catálogo vem de esforços já em andamento como o Species 2000.O catálogo eletrônico dos nomes de organismos conhecidos pela ciência será o elo entre asdiversas fontes de informação biológicas ou não-biológicas. A intenção é que este tipode ligação tenha o papel de catalisador na geração de novas informações sobrebiodiversidade. O catálogo é a porta de entrada da maioria das pesquisas e vai terligações com os outros índices, o índice biológico de espécies, o banco de espécies e o índiceda literatura sobre biodiversidade.

Catálogo dosnomes dosorganismosconhecidos

Dados biológicosde espécies

Banco de espéciesLiteratura sobrebiodiversidade

Gen Bank

Dados ecológicos

Dados deecossistemas

Dados geo-espaciais

Outros dadossequências de

RNA, proteínas,etc.

Dados de clima

GBIF Outras Entidades

O catálogo é também a principal ligação com os bancos de dados sobre biodiversidade jádesenvolvidos ou em desenvolvimento, como por exemplo, o Gen Bank. Tambémestarão conectados ao catálogo dados geo-espaciais, dados de clima, dados deecossistemas e dados ecológicos.

3. Interoperabilidade: Um Panorama Atual

O GBIF vai funcionar usando bancos de dados sobre biodiversidade já existentes. Porexemplo, em sua versão final será necessário integrar sistemas diversos como o BIOTA-SP no Brasil e Species 2000 na Europa. Para integrar sistemas tão diversos é necessáriauma sólida base de interoperabilidade. Embora no futuro os sistemas a seremintegrados deverão estar dentro de padrões estabelecidos pelo GBIF, o grande volume deinformações já disponível atualmente deverá ser integrado através de soluções deinteroperabilidade.

A proposta básica do GBIF é a de integrar informações. O método escolhido para fazeristo foi através da integração de metadados. Estes metadados vão estar em catálogos queservem como portas de acesso às outras informações. Este tipo de sistema é chamadode sistemas de metainformação (Jarke et al. 1994). O termo sistemas demetainformação significa um conjunto de ferramentas para organizar e documentardados relativos ao meio-ambiente sejam eles alfanuméricos ou geo-espacials. O objetivoé dar uma visão geral da informação disponível e oferecer ferramentas de pesquisaespecializadas para dados deste tipo.

As informações sobre biodiversidade estão armazenadas em uma variedade de arquivosdigitais que por sua vez estão baseados em uma grande heterogeneidade de sistemas decomputação. Isto tudo nos leva a necessidade de rever os conceitos básicos daintegração de sistemas e arquivos em computação. Como a maioria das informaçõessobre biodiversidade está relacionada com uma componente geográfica, ou seja,georeferenciada, vamos rever aqui as principais questões referentes a padrões de trocasde informações geográficas e a integração deste tipo de sistema. Além disto acomplexidade dos dados geográficos se assemelha à complexidade dos dados sobrebiodiversidade. Então as soluções e estudos usados para a geo-informação podem seraproveitados para informações sobre biodiversidade.

Interoperabilidade é capacidade que um sistema possui de compartilhar e trocarinformações e aplicações (Bishr 1997). De acordo com Sheth (1999), a nova geração desistemas de informação deverá ser capaz de resolver a interoperabilidade semântica, naqual um fato pode ter mais que uma descrição, para poder fazer um bom uso dasinformações disponíveis com a chegada da Internet e da computação distribuída. Estessistemas deverão ser capazes de entender o modelo que o usuário faz do mundo e seussignificados e entender também os modelos por trás das fontes de informação. Sheth(1999) acredita que o uso de mediadores (Wiederhold 1998) é a solução para ligaçãoentre o usuário e estas fontes de informação.

A pesquisa sobre interoperabilidade é motivada pela crescente heterogeneidade emsistemas de computação. A pesquisa sobre integração de bancos de dados vem desde omeio dos anos 80 (Batini et al. 1986) , e a comunidade dos sistemas de informaçãogeográficos também tem atuado ativamente nesta área (Kahn et al. 1984; Breitbart et al.

1990; Worboys e Deen 1991; Kashyap e Sheth 1996; Bishr 1997; Bishr 1998; Mena etal. 1998; Gahegan 1999; Harvey 1999). No Brasil, o destaque é para o projeto conjuntoCNPq/NSF que investigas questões relacionadas a interoperabilidade em Sistemas deInformação geográficos, Computational Issues in Interoperability in GIS (INPE 1998). Ossubtemas do projeto também estão diretamente ligados a questões de fundamentalimportância para a proposta do GBIF: modelagem semântica de dados espaciais, acessovia Internet a fontes de informações geográficas, e técnicas e ferramentas para sistemasde informação geográficos interoperáveis. Ultimamente a interoperabilidade está sendoconsiderada uma ciência da integração (Wiederhold 1999). Heterogeneidade emsistemas de informação geográficos não é uma exceção, mas a complexidade e riquezados dados geográficos e a dificuldade de sua representação em sistemas de computaçãocriam problemas específicos para a interoperabilidade em sistemas de informaçãogeográficos.

A literatura mostra diversas propostas de integração de dados, desde federações debancos de dados com esquemas integrados (Sheth e Larson 1990) e uso de orientaçãoa objetos (Kent 1993; Papakonstantinou et al. 1995) até mediadores (Wiederhold 1991)e ontologias (Wiederhold 1994; Guarino 1998).

As primeiras tentativas de se obter interoperabilidade em sistemas de informaçãogeográficos foram através da tradução direta de formatos de dados de um fabricante desoftware para outro. Uma variação nesta prática foi o aparecimento de formatospadrões intermediários. Estes formatos intermediários podem levar à perda dequalidade na informação como é o caso das traduções usando-se o formato DXF, umformato de exportação utilizado por programas do tipo CAD. Formatos alternativos queevitam a perda de informação geralmente são mais complexos como o Spatial DataTransfer Standard (SDTS) (USGS 1998)e o Spatial Archive and Interchange Format(SAIF) (Columbia 2001). No Brasil, o formato IIG (Davis 1995) é usado paratransferência de dados em alguns órgãos públicos .Uma proposta de modernização doformato SDTS usando-se uma estrutura de objetos que integra uma estruturadinâmica, uma interface para o padrão OpenGIS e para CORBA foi apresentada em(Arctur et al. 1998). Perez (2000) apresentou uma proposta para sistemas deinformações ambientais que estende parte do padrão americano de intercâmbio dedados geográficos do Federal Government Data Committee (FGDC). Uma tentativa maisampla para se obter um formato de intercâmbio de dados brasileiro foi iniciado peloINPE. O formato é chamado GeoBR (Câmara et al. 2000). Uma ampla discussão sobreformatos de transferência de informações geográficas pode ser encontrada em (Salgé1999) e (Sondheim et al. 1999).

Outra iniciativa para o intercâmbio de dados geográficos é o consórcio OpenGIS (OGIS1996), que é uma ampla aliança de órgãos governamentais, institutos de pesquisa,desenvolvedores de software e integradores de sistemas. O objetivo deste consórcio édefinir conceitos relativos a Sistemas Abertos de Informação Geográficos e desenvolverum conjunto de requisitos, padrões e especificações que o suportem. A intenção é

encorajar os desenvolvedores de software e integradores a aderirem a estes padrões eassim criar, através do tempo, ferramentas, bancos de dados e sistemas de comunicaçãoque maximizem a utilidade de sistemas e recursos e usufruam os avanços tecnológicos.Conforme o guia OpenGIS, o objetivo final é construir uma tecnologia que vaipossibilitar ao desenvolvedor de aplicações usar qualquer dado, função ou processogeográfico disponível na rede dentro de um único ambiente e um único fluxo detrabalho(Gardels 1996; McKee e Buehler 1996).

O OpenGIS usa três conceitos básicos:

• A consideração de que todos os dados, processos e servidores são objetosbaseados em uma tecnologia de objetos distribuídos;

• Um modelo de objetos geográficos para informações espaciais, baseado noSAIF e compatível com SDTS (Spatial Data Transfer Standard) e DIGEST(padrão para troca de dados espaciais entre instituições militares);

• Serviços a serem implementados fornecendo ligações entre o modelo deobjetos e formatos de dados privados, definindo uma interface padrão paracada elemento do modelo (dados, funções e processos).

Apesar de iniciativas como SDTS, SAIF, e OpenGIS, o uso de padrões como o únicoesforço importante para se obter interoperabilidade não é completamente aceito. Já quea heterogeneidade aparece espontaneamente de um mercado livre, não é possível bani-la por decreto (Elmagarmid e Pu 1990). O uso de tradutores semânticos em abordagensdinâmicas é uma ferramenta mais poderosa do que as abordagens atuais baseadas empadrões (Bishr 1997).

Outro ponto importante em interoperabilidade de sistemas de informação geográficos éa semântica. A complexa questão do significado dos dados e sua descrição é apresentadaem (Bishr 1998) onde são apresentados três tipos de heterogeneidade:

• heterogeneidade sintática, onde os dados estão armazenados com formatosdiferentes;

• heterogeneidade esquemática, onde um objeto do mundo real érepresentado por diferentes conceitos em um banco de dados; e

• heterogeneidade semântica, onde um único fato pode ter mais de umadescrição.

O método mais usado para se resolver a heterogeneidade sintática é a adoção depadrões. Estes padrões criam uma linguagem comum onde diferentes representaçõespodem se encontrar. SDTS, SAIF, e GeoBR são exemplos destas tentativas.

A heterogeneidade esquemática tem sido um tema recorrente de pesquisa e a soluçãomais comum para este tipo de problema é a adoção de um esquema intermediário ecomum a uma série de banco de dados. Esta solução é geralmente conhecida comouma federação de bancos de dados (Sheth e Larson 1990).

Para se resolver a heterogeneidade semântica é necessário que se tenha resolvido antesas outras duas (Bishr 1997; Fonseca et al. 2000). Uma ciência multidisciplinar como é abiodiversidade acaba levando a ocorrência de heterogeneidade semântica. Estaheterogeneidade já é um problema na comunicação diária entre seres humanos, e suaocorrência na ciência é mais problemática ainda. A tentativa de automatizar a soluçãodeste processo é um desafio ainda maior. As principal tendência para se resolver asquestões semânticas são os sistemas de informação baseados em ontologias (Guarino1998; Fonseca e Egenhofer 1999).

Uma outra tendência é o uso de Extensible Markup Language (XML). Característicasdesta linguagem a levaram a ser usada para abordar todos os tipos de heterogeneidades.XML foi proposta pelo consórcio World Wide Web Consortium (W3C) como umalinguagem extensível que separasse armazenamento de dados da operação devisualização, sendo desta forma uma evolução em relação a Hypertext Markup Language(HTML). Com XML o usuário pode definir sua própria sintaxe e suas estruturas dedados. Desta forma dados podem ser compartilhados de uma forma estruturada.Também os metadados, a descrição dos dados, pode ser compartilhada com XML. Ela éum subconjunto da Standard Generalized Markup Language (SGML) e ambas não sebaseiam em um conjunto restrito de marcadores que definem o significado de trechosdos documentos, como acontece com a linguagem Hyper Text Markup Language(HTML). Elas permitem e encorajam que as diversas comunidades existentes naInternet definam seus próprios elementos, através da criação de estruturas específicaschamadas Document Type Definition (DTD). Ao contrário da linguagem HTML, que serestringe à visualização e forma do documento, XML permite agregar semântica aoconteúdo destes documentos, deixando por conta de cada aplicação a interpretação damarcação atribuída a este conteúdo. O Resource Description Framework (RDF) é umaaplicação XML que permite a definição dos mecanismos para a representação demetadados. RDF fornece os mecanismos necessários para que as diversas comunidadescodifiquem, troquem e reutilizem metadados estruturados em vez de definir umconjunto universal de metadados. O uso de XML para resolver a heterogeneidadesemântica foi discutido em XOL (Karp et al. 1999), uma linguagem que foi criada parao facilitar o compartilhamento de ontologias.

4. Prioridades do GBIF

O que o GBIF pretende administrar é uma estação virtual de bioinformática. Estaestação vai operar em rede interligando uma gama de bancos de dados e outras fontesde informação distribuídos em vários países. O objetivo principal é o compartilhamentode informações sobre a biodiversidade. O sistema será distribuído, para incentivar acooperação e a coerência, será em escala global, embora implementado a nível nacionale regional, e aberto à participação e benefício de todos os países.

Em sua proposta inicial O GBIF tem sete programas básicos dos quais três sãoprioritários: (1) acesso a dados e interoperabilidade entre bancos de dados; (2) ocatálogo eletrônico de nomes das espécies conhecidas; e (3) a conversão para formatodigital dos dados referentes a coleções de história natural. Esta proposta inicial do GBIFde colocar disponível informações armazenadas em diferentes sistemas originadas dediferentes países em diferentes nível de detalhes leva do ponto de vista técnico a trêsquestões básicas:

• sistemas de computador: programas de computador, redes, Internet,interfaces, linguagens, estado da tecnologia atual no Brasil;

• intercâmbio de dados: padrões para troca de dados, formatos de dados;

• semântica: o significado das informações do ponto de vista de cadacomunidade.

4.1. Integração de Sistemas

O objetivo do GBIF é a criação de pontos de concentração de informações e serviços. Asinformações estão armazenadas em uma variedade de bancos de dados e arquivos comoutros tipos de organização. O que vai ser oferecido pelo GBIF são interfaces paraacesso e busca de informações sobre biodiversidade.

O GBIF é basicamente um integrador de serviços e informações. Para que isto aconteçaé necessário que diversas camadas de software sejam ativadas. A estratégia do GBIF comrelação a isto é estimular a implantação de um ou mais nós em cada participante. Estesnós vão funcionar como integradores das informações existentes em cada participante.

Os principais produtos desta linha de ação são interfaces integradoras de informações.Também terão de ser desenvolvidas ligações entre bancos de dados diversos e asinterfaces. Como a busca de informação é fundamental nesta fase, algoritmos depesquisa terão de ser desenvolvidos.

4.2. Integração de Dados Através de Padrões

Aqui o GBIF tem como objetivo o estabelecimento, ou a especificação, se necessário, deum padrão para troca de informações sobre a biodiversidade. Este padrão terá de sercompreensivo incluindo funcionalidades para lidar informações do tipo seqüências deDNA, arranjos moleculares, descrições de ecossistemas e informações geográficasassociadas a estas outras. Como sempre, o objetivo de todo padrão é ser compreensivo eao mesmo tempo não perder a riqueza das informações que estão sendo trocadas.

Para se estabelecer padrões é necessário trabalhar com organizações como a ISO. Aomesmo tempo é preciso analisar os padrões de fato do mercado e ver quais são os quese adaptam aos objetivos do GBIF.

Os resultados desta fase são padrões de transferencia de dados aceitos e usados portodos os participantes. Ao mesmo tempo este padrão deve ser flexível o suficiente paraaceitar a inclusão de novas tecnologias e novos participantes que talvez tenhamnecessidades ou formas diferentes de conhecimento.

4.3. Integração Semântica

Um dos principais objetivos do GBIF é a integração de informações. Para isto énecessário que haja uma integração das várias camadas de software envolvidas e quehaja um consenso sobre o valor semântico das informações.

Como o GBIF vai lidar com a integração de informações de diferentes países e tambémem diferentes níveis de detalhe, isto nos leva a dois diferentes caminhos, ambosbastante complicados. Primeiro é a necessidade de uma visão de mundo comum entreos diversos participantes. Mesmo dentro de um único país, diferentes comunidadespossuem diferentes visões de mundo considerando se uma perspectiva debiodiversidade. O segundo problema é estabelecer quais são os níveis de detalhereferentes a cada tipo de informação. A informação será coletada e distribuída desde onível de espécies e ecossistemas até ao nível genético e molecular.

A solução adotada pelo GBIF é o catálogo eletrônico de nomes das espécies conhecidasque vai funcionar como a ligação semântica entre as diversas fontes de informação.Além disto, o GBIF também irá desenvolver o banco de espécies, um catálogo com adescrição de cada espécie existente.

A estratégia do GBIF para desenvolver estes dois catálogos é o incentivo a instituiçõeslocais para trabalhar sob a administração do GBIF no sentido de compilar estasinformações.

5. Arquitetura de Sistemas: Possibilidades

O GBIF não têm ainda uma arquitetura de sistemas definida. O que existe são os planosiniciais, a carta de intenções, e planos genéricos para os primeiros 10 anos. À medidaque o GBIF for sendo implementado está arquitetura será definida mais precisamente.Nesta seção sugerimos opções para a possível implementação das propostas do GBIF.

5.1. Internet e XML

Esta é a principal opção como o meio de distribuição para as informações coordenadaspelo GBIF. A Internet é pública e está presente em todo mundo. Além disto, ela ofereceferramentas de fácil uso para desenvolvimento de software e é interoperável por suaprópria natureza. Embora o acesso em alguns países ainda seja problemático, estasbarreiras têm caído continuamente. Mesmo nos países com uma infra-estrutura poucodesenvolvida para a Internet, esta costuma ainda ser a melhor opção de comunicaçãocom o mundo exterior.

XML tem sido cada vez mais usada como uma linguagem interoperável. Ela permite adefinição da linguagem para o intercâmbio de documentos estruturados na Internet.Estas linguagens não se baseiam em um conjunto restrito de marcadores que definem osignificado de trechos dos documentos, como acontece com o HTML (Hyper TextMarkup Language); pelo contrário, elas permitem e encorajam que as diversascomunidades existentes na Internet definam seus próprios elementos, através dacriação de DTD´s (Document Type Definition) específicas. O caráter extensível dalinguagem XML estimula sua utilização nas mais diversas aplicações. Ao contrário dalinguagem HTML, que restringe-se a descrever a estrutura do documento do ponto devista da forma como o mesmo deve ser apresentado ao usuário, a linguagem XMLpermite agregar semântica ao conteúdo destes documentos, deixando por conta de cadaaplicação a interpretação da marcação atribuída a este conteúdo. Esta abordagemamplia significativamente as possibilidades do uso das linguagens de marcação, entreelas a capacidade de definir Metadados – dados que descrevem dados.

O Resource Description Framework (RDF) é uma aplicação XML que permite adefinição dos mecanismos para a representação de metadados. O RDF é a base para oprocessamento de metadados; ele permite interoperabilidade entre aplicações quetrocam informações interpretadas por máquinas na Web. A idéia básica do RDF éprover os mecanismos necessários para que as diversas comunidades codifiquem,troquem e reutilizem metadados estruturados e não o de definir um conjunto universalde metadados.Assim que se definir o uso de XML no consórico GBIF, uma dasprioridades será a criação de DTDs para os diversos objetos da biodiversidade.

5.2. Modelo de Dados

Uma das decisões que o GBIF deverá tomar logo no primeiro ano é a questão dacomplexidade do modelo de dados. O que está proposto hoje é apenas um índice geralbaseado nos nomes das espécies conhecidas. Uma proposta mais ousada seria criarontologias de biodiversidade. Esta ontologias seriam bastante complexas e teriamligações com as fontes de informação de biodiversidade como é sugerido nos sistemasde informação baseados em ontologias (Guarino 1998; Fonseca e Egenhofer 1999). Umíndice taxonômico como esta sendo proposto agora vai apenas apontar para páginas naInternet onde estão informações ou ligações para estas informações sobre as espéciesnomeadas no índice. Um sistema baseado em ontologias teria ligações com objetos querepresentariam entidades nas ontologias. Com as modernas tecnologias de computaçãoque estão sendo desenvolvidas atualmente, um nodo de uma ontologia debiodiversidade poderia apontar para um objeto na Internet. Este objeto poderia apontarpara um exemplar da espécie que poderia estar sendo monitorado por um GPS ou poruma câmera ao vivo diretamente do habitat da espécie. Os sistemas de informaçãobaseados em ontologias são discutidos em mais detalhe na seção “O Brasil além doGBIF”.

A criação de ontologias de biodiversidade, dos diversos ecossistemas e das espécies deveser resolvida tão cedo quanto possível. Também as estratégias para se desenvolver estasontologias e o nível de detalhe de cada uma também são prioridades. A integração ecompartilhamento de informações serão feitos através de pontos em comum nestasontologias.

5.3. Arquitetura

Em um sistema baseado em ontologias as pesquisas sempre começam pelo folheador deontologias. As ontologias fornecem os metadados e também apontam para osverdadeiros dados.

Os principais componentes de um sistema destes são:

• O servidor de ontologias tem um papel central neste sistema porque ele conectatodos os outros componentes. O servidor é também responsável em colocar asontologias disponíveis para as aplicações. A conexão com as fontes de informação éfeita através de mediadores. Os mediadores procuram por informações sobrebiodiversidade e as traduzem para os formatos padrões do GBIF. Mediadores sãopequenos programas com conhecimento embutido. Especialistas constroem osmediadores e os mantêm atualizados.

• as fontes de informações podem ser qualquer tipo de arquivos digitais conquantoque eles se comprometam com um mediador. O mediador extrai as partesnecessárias para compor uma unidade de informação correspondente a uma

entidade nas ontologias. O mediador também traz informações de volta a fonte nocaso de atualização.

• as aplicações geralmente vão ser relacionadas à recuperação de informações. Ousuário folheia as ontologias e escolhe as classes que deseja pesquisar. O usuáriopode escolher o nível de detalhe das ontologias que deseja folhear e vai entãorecuperar as informações neste mesmo nível de detalhe. Outros tipos de aplicaçõespodem ser desenvolvidos.de

Informação

5.4. Interface de Usuário

A principal interface para o acesso ao GBIF será um navegador com suporte alinguagem Java. A interface do GBIF deverá ser altamente interativa e deverá sabercomo manipular e extrair das fontes de informações os objetos com informações sobrebiodiversidade. Mas sabemos que para realizar esta tarefa as limitações da linguagemHTML (HyperText Markup Language) seriam intransponíveis. A arquitetura dainterface deve ser dinâmica para suportar as novas fontes de informação debiodiversidade e suas implementações orientadas a objeto através da Web. A linguagemJava preenche perfeitamente esta arquitetura para se fazer a reengenharia donavegador. Embora os navegadores sem Java tenham demonstrado a possibilidade de selocalizar e recuperar informações armazenadas em servidores Web, sua interfacegráfica deixou a desejar em termos de sofisticação. Demora no recebimento deinformações e a limitação das ações disponíveis nos documentos escritos em HTMLimpediram um uso mais confortável destes navegadores. Os navegadores habilitadospara Java conseguem superar estas limitações provendo capacidade de processamentolocal para detecção e resposta a eventos gerados por mouse ou teclado. A linguagemJava traz de volta à máquina local a responsabilidade pelo processamento dos menus einterfaces, liberando o usuário das limitações da conexão de rede com o servidor Web.

5.5. Conclusões

O resultado da arquitetura do GBIF deve ser uma solução que possa ser empacotada edistribuída para participantes que tenham menor poder tecnológico e por conseqüênciatenham dificuldades de desenvolver suas próprias soluções. Um modelo semelhante àsiniciativas do GNU e do Linux, padrões abertos e softwares distribuídos livremente vãocolaborar para preservação e desenvolvimento do conhecimento sobre a biodiversidade.É importante considerar que boa parte da biodiversidade mundial está em países doterceiro mundo onde nem sempre existem condições econômicas para investimentosem software e hardware.

6. O Brasil Além do GBIF - Uma Perspectiva Brasileira naIntegração de Informações sobre a Biodiversidade

A linha de atuação do GBIF é a de integrar informações sobre biodiversidade. Nosprimeiros anos o GBIF vai tentar estabelecer padrões de trocas de dados einiciar/complementar a criação dos seus dois catálogos básicos, (1) o catálogo de nomesdas espécies conhecidas e (2) o banco de dados de espécies. O que propomos nestaseção são atividades paralelas à participação do Brasil no GBIF. Estas atividades podemser vistas como um complemento às outras atividades do Brasil no GBIF. Aqui sãodiscutidos temas de pesquisa que podem ser desenvolvidos no Brasil dentro eparalelamente ao escopo das atividades do Brasil no GBIF.

Uma dos pontos básicos em trocas e informações digitais é o estabelecimento depadrões. O Brasil embora tenha participado de algumas tentativas não tem ainda umpadrão para troca de informações digitais. Aqui vamos discutir os padrões disponíveis ejá estudados no Brasil e sugerir que algum padrão deva ser adotado.

Os planos iniciais do GBIF estão dirigidos a publicação de índices para informações.Numa primeira fase, as informações propriamente ditas não deverão estarnecessariamente disponíveis para acesso em uma rede pública como a Internet, masapenas apontadores para estas informações. Nós consideramos que a publicaçãoimediata de informações substanciais, ao invés de apenas apontadores para estasinformações, em páginas disponíveis na Internet como uma prioridade que o Brasildeve procurar.

Finalmente, outro ponto a ser abordado é a questão da heterogeneidade semântica naintegração de sistemas. A nova geração de sistemas de informação deverá resolver estaquestão. Estes novos sistemas estarão mais preocupados em administrar conhecimentoe não apenas informações ou dados. Para isto é necessário que consiga acordos básicossobre o sentido das informações armazenadas digitalmente. Em sua fase inicial, o GBIFtrata desta questão de forma incompleta através da implementação de catálogos comnomes e sinônimos. Os sistemas baseados em ontologias levam esta questão adiante epropõe soluções arrojadas para a heterogeneidade semântica. Desta maneira,discutimos aqui os pontos básicos de uma metodologia para a construção de umsistema brasileiro de biodiversidade baseado em ontologias.

6.1. Padrões

Com a participação brasileira no GBIF começa a se caracterizar a necessidade de setrocar informações georeferenciadas e convencionais, gráficas e alfanuméricas, entresistemas de informação distintos.

A atual disponibilidade, e potencial implantação, de sistemas de informações geográficasem diversos órgãos interessados em biodiversidade e o fato de que a maioria destasinformações pode ser geo-referenciada leva a necessidade de que este padrão tem um

componente geo-espacial. Portanto a falta de um padrão universal para intercâmbio deinformações geográficas no Brasil é obstáculo à plena evolução dos sistemas debiodiversidade no Brasil.

Ao se analisar a atual padronização em termos de intercâmbio de informaçõesgeográficas, verificamos que existe um número muito reduzido de padrões de fato, emesmo estes se mostram inadequados para suportar todas as necessidades de troca. Ossistemas de informação geográficos conhecidos, dentre os atualmente disponíveis,tipicamente suportam alguns formatos de intercâmbio de informações gráficas nativosde sistemas CAD, alguns dos formatos de arquivos definidos por instituiçõesgovernamentais americanas como o FGDC, e também algum tipo de formatoproprietário, destinado a transportar informações entre diferentes instalações domesmo sistema.

Um dos padrões de fato utilizados por praticamente todos os sistemas gráficos vetoriais,por exemplo, é o formato DXF (Drawing eXchange Format), definido pela empresaamericana Autodesk, como subsídio à importação e exportação de gráficos para seusistema de desenho assistido por computador, o AutoCAD. Pela universalidade doAutoCAD, que é de longe o software de CAD mais utilizado no mercado, e pelasexcelentes características de representação de entidades gráficas inerentes àqueleproduto, este padrão veio a ser suportado por diversos fabricantes de software gráfico,inclusive de geoprocessamento. Sabe-se, no entanto, que o formato DXF, que ébastante completo na representação de gráficos, tem limitações sérias no que tange àrepresentação e transferência de atributos associados às entidades gráficas. Além disto,por ser o AutoCAD um software que não tem maiores preocupações quanto à topologiada representação gráfica, não existem garantias quanto à consistência do conteúdo decada camada, ao contrário do que se espera em um sistema de informações geográficas,onde cada camada deveria conter apenas um tipo de objeto.

6.1.1. Iniciativas Nacionais

Perez (2000) apresentou uma proposta para sistemas de informações ambientais queestende parte do padrão americano de intercâmbio de dados geográficos do FederalGovernment Data Committee (FGDC). A proposta é uma arquitetura genérica para aextração de dados ambientais distribuídos e um modelo de metadados para a definiçãoda estrutura dessas fontes de dados. Com base nesse modelo foi construída umaferramenta para gerência de metadados ambientais. O modelo pode ser estendido paraaplicação em outras estruturas de armazenamento de diferentes dos padrões.

O formato IIG (Davis 1995) embora com pretensões limitadas, consegue transferirparte das informações armazenadas em um sistemas de informação geográficos e temsido usado com sucesso. O formato tem recursos para a indicação do sistema deprojeção e sistema de coordenadas utilizado, além do sistema de unidades empregadopara representar as coordenadas. A eventual tradução de coordenadas com base nestes

parâmetros é feita pelo recebedor das informações. Quando é necessário representarcoordenadas geográficas esféricas (latitude e longitude) elas são apresentadas na ordemlongitude - latitude, em analogia à representação mais comum na ordem X-Y paracoordenadas cartesianas. As coordenadas esféricas são representadas em graus e fraçõesde grau, em vez de em graus, minutos e segundos, para facilitar o tratamentocomputacional em uma eventual mudança de sistema de coordenadas. Quanto à partegráfica, o formato representa as informações sob a forma de pontos ou linhas, sendoque estas poderão ser poligonais abertas ou fechadas. O formato aceita textos gráficos.O IIG não representa entidades gráficas mais complexas e nem imagens digitais.

A proposta mais recente e mais ambiciosa no Brasil é o formato GeoBR (Câmara et al.2000). Criado pelo grupo de geoprocessamento do INPE, este formato tenta preenchera lacuna de um formato nacional mais completo e que possa competir com os formatosusados hoje comercialmente. O projeto pretende fornecer livremente um software queconverte de e para o GeoBr e diversos formatos comerciais, entre eles, SPRING, DXF,ARC/INFO, ARC/VIEW e MapInfo. A principal característica da proposta é ser simples,mas ainda assim permitir a inclusão dos diferentes tipos de dados presentes numSistema de Informações geográficas (pontos 2D e 3D, linhas simples e linhas cotadas,centróides, tabelas de atributos). Imagens são transferidas usando se o formato paraimagens já bastante difundido, o GeoTIFF. O formato GEOBR propõe o intercâmbio dedados baseado em camadas independentes. Cada arquivo GEOBR contém um dadogeográfico bem definido, com todas as informações necessárias para sua decodificação,inclusive com sua descrição (metadados). O arquivo GEOBR é codificado em ASCII,contendo dois tipos de linhas: Palavras-Chave, que identificam os diferentes tipos decomponentes do formato, e Dados, expressos em coordenadas geográficas e atributosdescritivos.

A participação do Brasil no GBIF parece ser uma boa oportunidade para se discutir aproposta do GeoBR em um fórum mais amplo e confirmá-lo como o padrão brasileirode intercâmbio de dados geográficos.

6.1.2. Iniciativas Internacionais

As iniciativas internacionais estão em sua maioria ligadas a organizações de caráternacional ou profissional. Este é o caso do National Transfer Standard (NTF) no ReinoUnido, EDIGéO na França, Spatial Data Transfer Standard (SDTS) nos Estados Unidose o Spatial Archive and Interchange Format (SAIF) no Canadá. O formato detransferencia de dados mais conhecido criado por organizações profissionais é o DigitalGeographic Information Exchange Standard (DIGEST) criado pelo Ministério de Defesada OTAN.

A conveniência de o Brasil adotar um destes formatos ou basear seu formato em umdestes é aproveitar o volume de pesquisas que já foi feito para a criação destes padrões.

A desvantagem é a falta de suporte no Brasil e possíveis características regionais destesformatos.

6.2. Informações Substanciais na Internet

Um dos objetivos do GBIF é colocar disponível na Internet metadados sobre as fontesde informação sobre biodiversidade. Mas além deste tipo de informação, páginas sobretodas as espécies do planeta deveriam também ser publicadas na Internet. Embora estenão seja ainda um dos objetivos imediatos do GBIF, ele deverá ser mais cedo ou maistarde colocado como uma das prioridades do consórcio. Usando-se os recursos maismodernos como XML, podemos ter em uma página as metainformações, asinformações propriamente ditas. Alem disto, uma tendência atual é a publicaçãotambém de resumos das informações.

Estas páginas não podem ser páginas estáticas em HTML. Em vez disto é preciso quesejam dinâmicas, com ligações para os seres vivos, para os ecossistemas, usando seserviços de comunicação sem fio, GPS, câmeras ao vivo entre outras coisas. Os recursostecnológicos estão disponíveis e os pesquisadores do meio-ambiente precisam usar aimaginação para traduzir a riqueza dos ecossistemas para páginas na Internet.Comparações entre dados colhidos por pesquisadores diferentes, visualizações demetodologias e seus resultados, uso de imagens em 3-D, multimídia, satélites, tudo istodeve ser a base para uma comunicação efetiva que consiga traduzir em termos digitais acomplexidade do mundo biológico.

6.3. Ontologias e a Integração Semântica de Informações - UmaPerspectiva Brasileira

A abordagem do GBIF com relação à heterogeneidade semântica é limitada a palavraschaves e sinônimos presentes no catálogo eletrônico dos nomes de organismosconhecidos e no banco de espécies. Os sistemas que desejam ter uma abordagem maisousada com relação à questão semântica estão usando ontologias como suporte.Ontologias como uma ferramenta de engenharia descrevem uma certa realidade comum vocabulário específico usando um conjunto de premissas de acordo com o sentidointencional das palavras do vocabulário. No sentido filosófico, ontologia é um sistemaespecífico de categorias que reflete uma visão específica do mundo. Gruber (1992)define uma ontologia como uma especificação explícita de uma conceituação. Guarino(1998) estende a definição apresentada por Gruber (1992): uma ontologia é uma teorialógica que corresponde ao significado intencional de um vocabulário formal, ou seja,um comprometimento ontológico com uma conceituação específica do mundo. Osmodelos intencionais de uma linguagem lógica usando este vocabulário são controladospor seu comprometimento ontológico. Este comprometimento é a conceituaçãosubentendida são refletidas na ontologia pela aproximação desses modelos intencionais.

6.3.1. Sistemas de Informação Baseados em Ontologias

Sistemas de Informação Baseados em Ontologias são baseados em duas noções básicas:(1) tornar as ontologias explícitas antes de desenvolver os sistemas e (2) a divisãohierárquica das comunidades de usuários.

Uma ontologia representa uma visão de mundo. Os objetos representados nasontologias são os objetos do mundo real. Quando se especifica uma ontologia nãoexiste uma preocupação com a representação final em sistemas de computação. Porexemplo, o conceito lago pode ser representado de diferentes maneiras em diferentesbancos de dados, mas o conceito é sempre o mesmo, pelo menos do ponto de vista decada comunidade de usuários. Este ponto de vista é expresso na ontologia especificadapela própria comunidade. Num sistema baseado em ontologias são os mediadores queagem para captar os aspectos que caracterizam um lago a partir de diversos bancos dedados e montam o que é um lago como especificado na ontologia.

O mundo está dividido em diferentes grupos de pessoas. Cada grupo tem uma visãodiferente do mundo. McKee e Buehler (1996) chamam estes grupos de comunidade degeo-informação. Cada um destes grupos compartilha a mesma ontologia (Bishr et al.1999). Uma pressuposição básica de um sistema baseado em ontologias é que asontologias de cada comunidade podem ser explicitamente especificadas, e além disto,integradas mais tarde se for necessário. A hierarquia de comunidades vai servir paragerar ontologias de diferentes níveis o que vai corresponder à integração deinformações a diferentes níveis também. Por exemplo, uma comunidade a nívelestadual em São Paulo tem sua ontologia especificada num nível mais alto (maisgenérico) do que uma comunidade de um município. Esta última é mais detalhada.Quando da integração de ontologias a nível estadual, as informações mais detalhadasdos municípios são adaptadas para se adequar à ontologia de nível mais alto. Umacomunidade pode se ligar a diversas ontologias. As informações são compartilhadasatravés das classes em comum. O nível de detalhe é relacionado ao nível da ontologia.Uma abordagem que considera as ontologias de forma flexível, através de composiçãode ontologias através do uso de classes de outras ontologias quando necessário, nãorestringe as comunidades a uma única ontologia comum a todas. As ontologias comunssão usadas como o elo de ligação entre as comunidades. Quanto mais fundo na árvorede ontologias menos informação será compartilhada.

Neste tipo de sistema, as ontologias devem ser especificadas em diferentes níveis. Aprincipio as ontologias de mais alto nível são especificadas e a partir delas, as ontologiasde mais baixo nível, as mais detalhadas. No entanto alguns autores considerem que émais viável especificar primeiro ontologias de nível médio e a partir delas gerar ambas,as de mais alto nível e as de mais baixo nível.

6.3.2. Como Construir Ontologias

O uso de ontologias explícitas no desenvolvimento e uso de sistemas de informação levaao que são chamados de Sistemas de Informação baseados em ontologias (Guarino1998). As ontologias podem ser representadas, por exemplo, usando se uma estruturaformal baseada em Rodriguez (2000), que descreve ontologias através seuscomponentes: partes, funções e atributos. Esta estrutura considera mais a robustez daimplementação (Guarino et al. 1999), já que não é direcionada a ser usada em sistemasdedução automática e sim para extração e manipulação de informações. Em Cranefield(1999) pode ser encontrada uma discussão completa sobre as formas dearmazenamento de ontologias de acordo com o uso pretendido. As ontologias sãoorganizadas em uma estrutura hierárquica, já que está é considerada uma das melhoresformas de se representar o mundo geográfico (Smith 1995; Harvey et al. 1999). Omapeamento das entidades presentes nas ontologias para componentes de software éfeito usando se técnicas de orientação a objeto. Este tipo de mapeamento permiteintegração parcial de informações quando uma integração completa não é possível. Estesistema permite ainda o reaproveitamento de classes já desenvolvidas, incorporando,assim, nos novos sistemas, o conhecimento existente em outros sistemas.

Um sistema de informação baseado em ontologias é composto por um editor deontologias, por um servidor de ontologias, por ontologias especificadas formalmente epor classes derivadas de ontologias. A especificação de ontologias é feita através do usode um editor de ontologias. Um sistema para editar, folhear, traduzir e reutilizarontologias é o Ontolíngua (Gruber 1992). O sistema Ontolíngua permite que a ediçãode ontologias seja feita por grupos de especialistas trabalhando simultaneamente. Asontologias podem ser traduzidas para linguagens como CORBA Interface DefinitionLanguage (IDL) (OMG 1991), Prolog (Clocksin e Mellish 1981), Epikit e KIF(Genesereth 1990).

O resultado do processo inicial de uso de um sistema de informações baseado emontologias é um conjunto de ontologias especificadas formalmente e um conjunto declasses. Podemos chamar este processo inicial de geração de conhecimento. Asontologias são administradas por um servidor de ontologias. Este servidor permite ofolheamento de ontologias, assim, colocando à disposição de usuários, os metadadosreferentes às informações disponíveis. O servidor de ontologias também contémapontadores para sistemas de informação geográficos. A comunicação entre o servidorde ontologias e os sistemas de informação é feita através de mediadores. Estesmediadores são responsáveis por extrair as informações dos sistemas de informação ecriar as instâncias das classes. Estas classes vão conter as informações extraídas dossistemas de informação e o conhecimento extraído das ontologias.

6.4. Conclusão

É importante que paralelamente a iniciativa da entrada do Brasil no GBIF algumaslinhas de pesquisa sejam seguidas. A primeira é com o intuito de estabelecer um padrãode dados para o Brasil. Este padrão pode ser criado baseado em experiências brasileiras,como é o caso da proposta do GeoBR (Câmara et al. 2000) ou adaptado/estendido dealgum modelo já existente.

A publicação das informações sobre biodiversidade no Brasil na Internet em sua formasubstancial e não apenas apontadores para estas informações é fundamental para odesenvolvimento desta área no Brasil.

Outro ponto importante é a pesquisa de sistemas onde a semântica tem um papelprincipal. Os sistemas de informação baseados em ontologias são uma tendência dosmodernos sistemas de informação. Para uma total integração das iniciativas debiodiversidade no Brasil é necessário que se desenvolvam ontologias que capturem asvisões de mundo das diversas comunidades que trabalham com a biodiversidade noBrasil.

7. Conclusões

Este relatório apresentou uma visão geral do que é o GBIF e seus principais objetivos.Os planos iniciais do GBIF são de estabelecer uma rede pública com índices parainformações sobre biodiversidade de todo o mundo. Um catálogo de nomes dosorganismos conhecidos deve ser criado assim como um banco com os nomes e dadosbásicos de todas as espécies.

A estrutura pretendida pelo GBIF é bem semelhante a que o Brasil já desenvolve comprojetos como o BIOTA-SP. Uma das estratégias do GBIF é estimular projetos como oBIOTA-SP, estabelecer padrões, e criar condições tecnológicas para que estes projetospossam estar ligados a uma grande rede de computadores que permita o acesso a nívelmundial independente de localização ou de língua.

A conveniência ou não do Brasil participar deste projeto não foi discutida nesterelatório. As vantagens e desvantagens do ponto de vista da troca de informações sobrea biodiversidade também estão fora do escopo deste relatório. Da mesma forma, aquestão de direitos autorais sobre as informações a serem compartilhadas, uma daspreocupações do GBIF, também não é discutida neste documento. Apenas as condiçõestécnicas necessárias para que o Brasil participe foram apresentadas. Nossa opinião éque o Brasil tem a tecnologia necessária para participar, tanto do ponto de vistacomputacional como do ponto de vista de conhecimento sobre biodiversidade. Oprojeto BIOTA-SP, e sua extensão SIN-BIOTA-SP, que permite o acesso on-line dasinformações são uma prova disto.

Na primeira parte deste documento fizemos uma introdução sobre o que é o GBIF.Então apresentamos uma breve descrição técnica do GBIF e depois introduzimos umarevisão sobre o estado atual da Interoperabilidade, um problema fundamental para aimplementação do GBIF.

Na segunda parte deste documento analisamos tecnicamente o plano do GBIF.Primeiramente as questões relativas a padrões de intercâmbio de dados, softwarenecessário para implementação e integração semântica de informações foramanalisadas sob o ponto de vista do GBIF. Depois fizemos uma descrição daspossibilidades técnicas para a implementação das propostas do GBIF. Depois distoapresentamos uma sugestão de como o Brasil pode usar a participação no GBIF parainiciar projetos paralelos que vão contribuir para o desenvolvimento tecnológicobrasileiro e também para aumentar e divulgar a área de conhecimento sobrebiodiversidade. Sugerimos o uso de sistemas de informação baseados em ontologias, acriação de ontologias brasileiras sobre biodiversidade, e a definição de padrõesbrasileiros para trocas de dados.

8. Referências

D. Arctur, D. Hair, G. Timson, E. Martin, e R. Fegeas (1998) Issues and Prospects forthe Next Generation of the Spatial Data Transfer Standard (SDTS). InternationalJournal of Geographical information Science 12(4): 403-425.

C. Batini, M. Lenzerini, e S. Navathe (1986) A Comparative Analysis of Methodologiesfor Database Schema Integration. ACM Computing Surveys 18(4): 323-364.

Y. Bishr (1997) Semantic Aspects of Interoperable GIS. Ph.D. Thesis, WageningenAgricultural University, The Netherlands.

Y. Bishr (1998) Overcoming the Semantic and Other Barriers to GIS Interoperability.International Journal of Geographical Information Science 12(4): 299-314.

Y. A. Bishr, H. Pundt, W. Kuhn, e M. Rdwan (1999) Probing the Concepts ofInformation Communities - A First Step Toward Semantic Interoperability. in: M.Goodchild, M. Egenhofer, R. Fegeas, e C. Kottman, (Eds.), Interoperating GeographicInformation Systems. pp. 55-70, Kluwer, Norwell, MA.

Y. Breitbart, H. Garcia-Molina, W. Litwin, N. Roussopoulos, M. Risinkiewicz, G.Thompson, e G. Wiederhold (1990) Final Report of the Workshop on Multidatabases andSemantic Interoperability, Tulsa, Oklahoma, November 2-4, 1990. University ofKentucky, Department of Computer Science, Lexington, KT, Technical Report 188-91.

G. Câmara, A. Monteiro, J. Paiva, R. Souza, J. D'Alge, E. Lopes, ClaudioBarbosa, e U.Freitas (2000) Intercambio de Dados Geográficos no Brasil: Um Formato Aberto. INPE.

W. Clocksin e C. Mellish (1981) Programming in Prolog. Springer-Verlag, New York.

G. o. B. Columbia (2001) Geographic data BC - SAIF and FMEBC.

S. Cranefield e M. Purvis (1999) UML as an Ontology Modelling Language. in: D.Fensel, (Ed.) Workshop on Intelligent Information Integration, 16th International JointConference on Artificial Intelligence, Stockholm.

C. Davis (1995) Intercâmbio de Informações Geográficas: Proposta Preliminar. Prodabel,Belo Horizonte, Technical Report.

A. Elmagarmid e C. Pu (1990) Guest editors' Introduction to the Special Issue onHeterogeneous Databases. ACM Computing Surveys 22(3): 175-178.

F. Fonseca e M. Egenhofer (1999) Ontology-Driven Geographic Information Systems.in: C. B. Medeiros, (Ed.) 7th ACM Symposium on Advances in Geographic InformationSystems, Kansas City, MO, pp. 14-19.

F. Fonseca, M. Egenhofer, C. Davis, e K. Borges (2000) Ontologies and KnowledgeSharing in Urban GIS. CEUS - Computer, Environment and Urban Systems 24(3): 232-251.

M. Gahegan (1999) Characterizing the Semantic Content of Geographic Data, Models,and Systems. in: M. Goodchild, M. Egenhofer, R. Fegeas, e C. Kottman, (Eds.),Interoperating Geographic Information Systems. pp. 71-84, Kluwer Academic Publishers,Norwell, MA.

K. Gardels (1996) The Open GIS Approach to Distributed Geodata and Geoprocessing.in: Third International Conference/Workshop on Integrating GIS and EnvironmentalModeling, Santa Fe, NM, pp. 21-25.

GBIF (2000) Global Biodiversity Information Facility.

M. R. Genesereth (1990) The Epikit Manual. Epistemics, Inc., Palo Alto, CA, TechnicalReport.

T. Gruber (1992) A Translation Approach to Portable Ontology Specifications.Knowledge Systems Laboratory - Stanford University, Stanford, CA, Technical ReportKSL 92-71.

N. Guarino (1998) Formal Ontology and Information Systems. in: N. Guarino, (Ed.)Formal Ontology in Information Systems. pp. 3-15, IOS Press, Amsterdam, Netherlands.

N. Guarino, C. Masolo, e G. Vetere (1999) OntoSeek: Content-Based Access to theWeb. IEEE Intelligent Systems 14(3): 70-80.

F. Harvey (1999) Designing for Interoperability: Overcoming Semantic Differences. in:M. Goodchild, M. Egenhofer, R. Fegeas, e C. Kottman, (Eds.), InteroperatingGeographic Information Systems. pp. 85-98, Kluwer Academic Publishers, Norwell, MA.

F. Harvey, B. Buttenfield, e S. Lambert (1999) Integrating Geodata Infrastructures fromthe Ground Up. Photogrammetric Engineering & Remote Sensing 65(11): 1287-1291.

INPE (1998) Computational Issues in Interoperability in GIS. INPE/University ofMaine.

M. Jarke, K. Pohl, C. Rolland, e J. Schmitt (1994) Experience-Based Method Evaluationand Improvement: a Process Modelling Approach. in: IFIP Working Group 8: CRIS 94,Maastricht, Netherlands, pp. 1-27.

G. Kahn, D. McQueen, e G. Plotkin, Eds. (1984) Semantics of Data Type. Springer-Verlag, New York.

P. Karp, V. Chauhdri, e J. Thomere (1999) XOL: an XML-based Ontology ExchangeLanguage. Artificial Intelligence Center SRI International, Menlo Park, CA, TechnicalReport.

V. Kashyap e A. Sheth (1996) Semantic Heterogeneity in Global Information System:The Role of Metadata, Context and Ontologies. in: M. Papazoglou e G. Schlageter,(Eds.), Cooperative Information Systems: Current Trends and Directions. pp. 139-178,Academic Press, London.

W. Kent (1993) Object Orientation and Interoperability. in: Advances in Object-Oriented Database Systems. NATO Advanced Study Institute on Object-OrientedDatabase Systems 130, pp. 287-305, Springer, Izmir, Kusadasi, Turkey.

L. McKee e K. Buehler, Eds. (1996) The Open GIS Guide. Open GIS Consortium, Inc,Wayland, MA.

E. Mena, V. Kashyap, A. Illarramendi, e A. Sheth (1998) Domain Specific Ontologiesfor Semantic Information Brokering on the Global Information Infrastructure. in: N.Guarino, (Ed.) Formal Ontology in Information Systems. pp. 269-283, IOS Press,Amsterdam.

OECD (1999) Meeting of the Commitee for Scientific and Technologic Policy atMinisterial Level.

OGIS, Ed. (1996) The OpenGIS® Guide - Introduction to Interoperable Geoprocessingand the OpenGIS Specification. Open GIS Consortium, Inc, MA.

OMG, Ed. (1991) The Common Object Request Broker: Architecture and Specification,Revision1.1. OMG Document No. 91.12.1 Framingham, MA.

Y. Papakonstantinou, H. Garcia-Molina, e J. Widom (1995) Object Exchange AcrossHeterogeneous Information Sources. in: IEEE International Conference on DataEngineering, Taipei, Taiwan, pp. 251-260.

H. A. d. M. Perez, A. M. d. C. Moura, e A. K. Tanaka (2000) Extração de Dados emSistemas de Informação Ambientais: Arquitetura e Esquema de Metadados. in: L.Figueiredo, (Ed.) Geoinfo 2000 - II Workshop Brasileiro de Geoinformatica, Sao Paulo,Brazil.

A. Rodríguez (2000) Assessing Semantic Similarity among Spatial Entity Classes. Ph.D.Thesis, University of Maine, Orono.

F. Salgé (1999) National and International Data Standards. in: P. Longley, M.Goodchild, D. Maguire, e D. Rhind, (Eds.), Geographical Information Systems. 1Principles and Technical Issues, pp. 693-706, John Wiley & Sons, New York.

A. Sheth (1999) Changing Focus on Interoperability in Information Systems: fromSystem, Syntax, structure to Semantics. in: M. Goodchild, M. Egenhofer, R. Fegeas, eC. Kottman, (Eds.), Interoperating Geographic Information Systems. pp. 5-29, KluwerAcademic Publishers, Norwell, MA.

A. Sheth e J. Larson (1990) Federated Databases Systems for Managing Distributed,Heterogeneous, and Autonomous Databases. ACM Computing Surveys 22(3): 183-236.

B. Smith (1995) On Drawing Lines on a Map. in: A. Frank e W. Kuhn, (Eds.), SpatialInformation Theory—A Theoretical Basis for GIS, International Conference COSIT '95.Lecture Notes in Computer Science 988, pp. 475-484, Springer Verlag, Berlin.

M. Sondheim, K. Gardels, e K. Buehler (1999) GIS Interoperability. in: P. Longley, M.Goodchild, D. Maguire, e D. Rhind, (Eds.), Geographical Information Systems. 1Principles and Technical Issues, John Wiley & Sons, INC, New York.

USGS (1998) View of the Spatial Data Transfer Standard (SDTS) Document.

G. Wiederhold (1991) Mediators in the Architecture of Future Information Systems.Stanford University, Technical Report.

G. Wiederhold (1994) Interoperation, Mediation and Ontologies. in: InternationalSymposium on Fifth Generation Computer Systems (FGCS94), Tokyo, Japan, pp. 33-48.

G. Wiederhold (1998) Value-added Middleware: Mediators. Stanford University,Technical Report.

G. Wiederhold (1999) Mediation to Deal with Heterogeneous Data Sources. in: A.Vckovski, K. Brassel, e H.-J. Schek, (Eds.), Interoperating Geographic InformationSystems - Second International Conference, INTEROP'99. Lecture Notes in ComputerScience 1580, pp. 1-16, Springer-Verlag, Berlin.

M. Worboys e S. Deen (1991) Semantic Heterogeneity in Geographic Databases.SIGMOD RECORD 20(4): 30-34.