Curadoria Digital Congresso Sbcc Final

of 15 /15
1 O IMPACTO DA CURADORIA DIGITAL DOS DADOS DE PESQUISA NA COMUNICAÇÃO CIENTÍFICA Luana Farias Sales (PPGCI IBICT/UFRJ, IEN-CNEN) Luís Fernando Sayão (CIN-CNEN) Resumo Oferecer acesso aos dados utilizados para o desenvolvimento das pesquisas científicas é um desejo cada vez mais relevante para os profissionais da informação. Assim como existe uma tendência mundial em dar acesso livre aos resultados de pesquisa por meio da criação de repositórios digitais e da publicação de periódicos livres, atualmente existe também uma demanda em torno do acesso livre aos dados gerados no decorrer das atividades de pesquisa. A importância desses dados é cada vez mais patente, posto que eles que dão sustentação aos resultados que serão discutidos nas tradicionais publicações científicas conhecidas e podem servir de base para novas pesquisas. Por outro lado, o uso intensivo de computadores e de tecnologias de rede proporciona o surgimento de uma ciência inteiramente baseada no fluxo de dados e de conjunto de objetos armazenados em repositórios distribuídos globalmente; é a chamada eScience, cuja forma de gerar e disseminar conhecimento é inteiramente nova. Os dados digitais, que vêm sendo gerados a partir dessa nova forma de fazer ciência, precisam ser tratados e gerenciados de forma que a preservação por longo prazo, o acesso, bem como a autenticidade e reuso para novas pesquisas desses dados possam ser assegurados. Este trabalho visa apresentar o conceito de Curadoria Digital como uma nova atividade de tratamento e representação da informação que, desenvolvida de forma correta, poderá alterar o ciclo da comunicação científica. Palavras-chave: curadoria digital; reuso de dados científicos; comunicação científica. 1 Considerações Iniciais Pesquisadores e acadêmicos sempre procuraram incorporar os desenvolvimentos tecnológicos na intermediação e intensificação das suas relações de compartilhamento de conhecimentos. Os pressupostos de inovação e modernidade da ciência, aliados à própria natureza social inerente à construção do saber científico colocam as tecnologias de informação e comunicação (TICs) numa condição determinante para o estabelecimento de novas modalidades de socialização entre pesquisadores. Iniciando com extensões e simulacros virtuais de formas tradicionais de comunicação como correio eletrônico, telefone e reuniões presenciais, as TICS, nos dias atuais, ultrapassam os limites da comunicação e recriam novas formas de fazer ciência, como são os colaboratórios 1 e os experimentos levados a cabo de forma distribuída em escala universal, baseados em redes de computadores. 1 Colaboratório é um termo cunhado por Wulf (1989) para designar um centro de pesquisa sem paredes, no qual os pesquisadores de um país podem realizar suas pesquisas sem considerar a localização física, interagindo com colegas,

Embed Size (px)

Transcript of Curadoria Digital Congresso Sbcc Final

O IMPACTO DA CURADORIA DIGITAL DOS DADOS DE PESQUISA NA COMUNICAO CIENTFICA

Luana Farias Sales (PPGCI IBICT/UFRJ, IEN-CNEN) Lus Fernando Sayo (CIN-CNEN)

Resumo Oferecer acesso aos dados utilizados para o desenvolvimento das pesquisas cientficas um desejo cada vez mais relevante para os profissionais da informao. Assim como existe uma tendncia mundial em dar acesso livre aos resultados de pesquisa por meio da criao de repositrios digitais e da publicao de peridicos livres, atualmente existe tambm uma demanda em torno do acesso livre aos dados gerados no decorrer das atividades de pesquisa. A importncia desses dados cada vez mais patente, posto que eles que do sustentao aos resultados que sero discutidos nas tradicionais publicaes cientficas conhecidas e podem servir de base para novas pesquisas. Por outro lado, o uso intensivo de computadores e de tecnologias de rede proporciona o surgimento de uma cincia inteiramente baseada no fluxo de dados e de conjunto de objetos armazenados em repositrios distribudos globalmente; a chamada eScience, cuja forma de gerar e disseminar conhecimento inteiramente nova. Os dados digitais, que vm sendo gerados a partir dessa nova forma de fazer cincia, precisam ser tratados e gerenciados de forma que a preservao por longo prazo, o acesso, bem como a autenticidade e reuso para novas pesquisas desses dados possam ser assegurados. Este trabalho visa apresentar o conceito de Curadoria Digital como uma nova atividade de tratamento e representao da informao que, desenvolvida de forma correta, poder alterar o ciclo da comunicao cientfica. Palavras-chave: curadoria digital; reuso de dados cientficos; comunicao cientfica.

1 Consideraes Iniciais Pesquisadores e acadmicos sempre procuraram incorporar os desenvolvimentos tecnolgicos na intermediao e intensificao das suas relaes de compartilhamento de conhecimentos. Os pressupostos de inovao e modernidade da cincia, aliados prpria natureza social inerente construo do saber cientfico colocam as tecnologias de informao e comunicao (TICs) numa condio determinante para o estabelecimento de novas modalidades de socializao entre pesquisadores. Iniciando com extenses e simulacros virtuais de formas tradicionais de comunicao como correio eletrnico, telefone e reunies presenciais, as TICS, nos dias atuais, ultrapassam os limites da comunicao e recriam novas formas de fazer cincia, como so os colaboratrios1 e os experimentos levados a cabo de forma distribuda em escala universal, baseados em redes de computadores.1

Colaboratrio um termo cunhado por Wulf (1989) para designar um centro de pesquisa sem paredes, no qual os pesquisadores de um pas podem realizar suas pesquisas sem considerar a localizao fsica, interagindo com colegas,

1

O que se observa de forma concreta que as inovaes que impactam e criam novos patamares para a comunicao cientfica nascem no prprio seio das comunidades cientficas. Um exemplo significativo desse fenmeno o protocolo Open Archives for Metadata Harvesting 2, cujas potencialidades contrastam com a sua surpreendente simplicidade. Esse padro de compartilhamento, interoperabilidade e reuso de metadados deu margem criao de mecanismos de encurtamento do ciclo de comunicao cientfica, muitas vezes excessivamente longo, especialmente para algumas reas de rpida evoluo como a Fsica e a prpria rea de Tecnologia da Informao. Ao mesmo tempo, criou espaos virtuais de memria cientfica para informaes sem lugar nos sistemas mais formais, como bases de dados e OPACS, sendo uma alternativa autntica aos peridicos cientficos. Os pesquisadores tm colocado luz sobre problemas que estavam despercebidos e que, entretanto, tm desdobramentos significativos na estrutura clssica da comunicao cientifica, como a nascente preocupao com a gesto de dados de pesquisa, sua preservao, reuso e os processos de agregao de valor, cujas metodologias so coletivamente chamadas de curadoria digital. O presente artigo tem por objetivo apresentar esse novo conceito que surge no mago dos estudos sobre tratamento e recuperao da informao digital, evidenciando como essa nova tipologia informacional, quando bem gerenciada, pode afetar o ciclo da comunicao cientfica. 2 A Comunicao cientfica O conceito comunicao cientfica foi estabelecido por John Bernal, no final dos anos trinta do sculo passado, para designar o processo especfico de produo, consumo e transferncia da informao no campo cientfico. Segundo Targino (2000), a histria dos estudos sobre comunicao cientfica surge nos EUA, na dcada de 1940, como decorrncia do crescimento significativo e desordenado da literatura cientfica. De acordo com a autora, os primeiros estudos tiveram como objetivo central analisar os problemas do uso da informao por cientistas e tecnlogos, configurando os chamados estudos de usurios. O interesse pelos temas comunicao cientfica e literatura cientfica ficava ainda mais evidenciado entre as dcadas de 1960 e 1970, quando a disputa acirrada entre as duas potncias da poca EUA e URSS (antiga Unio das Repblicas Socialistas Soviticas) - visava mostrar a supremacia cientfica e tecnolgica de cada uma delas. Naquela poca, deixava claro que no bastava fazer cincia, mas era necessrio tambm divulgar o resultado das pesquisas realizadas. A necessidade de comunicar a atividade cientfica permitia, alm de divulgar os resultados e ter o trabalho avaliado pelos pares, somar os esforos individuais dos membros das comunidades cientficas , pois possibilitavam a troca continua de informaes com seus pares emitindo-as para seus sucessores e/ou adquirindo-as de seus predecessores (TARGINO, 2000, p.10), Assim, a comunicao cientfica foi se tornando essencial para todos os pesquisadores. Menzel (1958 apud KAPLAN; STORER 1968) faz algumas colocaes que conduzem s funes da comunicao na cincia, a saber: fornecer respostas aacessando instrumentao, compartilhando dados, informaes e recursos computacionais, e acessando bibliotecas digitais 2 www.openarchives.org/OAI/openarchivesprotocol.html

2

perguntas especficas; concorrer para a atualizao profissional do cientista no campo especfico de sua atuao; estimular a descoberta e a compreenso de novos campos de interesse; divulgar as tendncias de reas emergentes, fornecendo aos cientistas a idia da relevncia de seu trabalho; testar a confiabilidade de novos conhecimentos, diante da possibilidade de testemunhos e verificaes; redirecionar ou ampliar o rol de interesse dos cientistas; fornecer feedback para aperfeioamento da produo do pesquisador. Ziman (1984, p. 84) afirma que a cincia conhecimento pblico, disponvel livremente para todos e, semelhante a ele, Storer (1966) coloca que os conhecimentos que no esto disponveis ao pblico no constituem conhecimento pblico e assim no podem ser referendados pelo mundo cientfico. Desta forma, foi preciso o estabelecimento de um canal de divulgao para a certificao do conhecimento cientfico e para a comunicao autorizada da cincia, dando-lhe tambm a atribuio de confirmar a autoria da descoberta cientfica (MELLER, 2006, p.27). Como desdobramento, a comunidade cientfica estabeleceu que as revistas indexadas estariam no centro do sistema tradicional de comunicao cientfica. Atualmente, porm, com o monoplio das editoras sobre as publicaes cientficas, os resultados dessas pesquisas ficam cada vez mais limitados a certo nmero de pesquisadores ligados s instituies que podem pagar para ter o acesso informao, impedindo que o conhecimento cientfico esteja disponvel para todos. O problema do monoplio levou busca de solues atravs do movimento do open access que sugere dois caminhos para o acesso livre informao cientfica: a via dourada que incentiva a publicao de peridicos eletrnicos de acesso livre - e a via verde que incentiva a implantao de repositrios digitais temticos e institucionais, bem como, o autoarquivamento de e-prints nesses repositrios. Neste sentido, os peridicos de acesso livre e os repositrios institucionais vm se constituindo uma alternativa vivel para que os resultados da pesquisa no pertenam ao cientista somente, e sim, a toda humanidade. A questo que este trabalho traz, no entanto, vai um pouco alm do compartilhamento dos resultados da pesquisa, pois considera tambm que o compartilhamento dos dados cientficos possa ser mais uma forma de validar as atividades desenvolvidas no mbito da cincia, alm de otimizar a produo de novos conhecimentos, bem como a induo de novas descobertas. A questo que se coloca, portanto : se compartilhamos os resultados, por que no compartilhamos tambm os dados? A corrida em busca da prioridade da descoberta cientfica implica originalidade, vista como a capacidade de levar a cincia para frente, de explorar suas potencialidades, de criar alternativas, enfim, de garantir a dinamicidade intrnseca cincia (TARGINO, 2000, p.15). Compartilhar dados de pesquisa de forma consciente e responsvel pode ser uma nova forma de mover a cincia e explorar ainda mais suas potencialidades. 3 A Importncia dos dados de pesquisa A necessidade de se ter dados cientficos3 tratados e disponveis para o acesso dos pesquisadores no uma questo totalmente nova para a Cincia da Informao. No3

Dados cientficos ou dados de pesquisas, conforme definio da OCDE (2007, p.13) podem ser definidos como registros de fatos usados como fontes primrias na investigao cientfica e que

3

mbito da pesquisa sobre primatas, o Museu Paraense Emlio Goeldi, em fins da dcada de 1980 e incio de 1990, desenvolveu o PRIMATAM, projeto ligado ao Ncleo de Primatologia, cujo tratamento dos dados de pesquisa resultou em um catlogo impresso, conforme informaes dadas por Suely Marques-Aguiar (2011), atravs de contato via e-mail. Com o surgimento das mdias eletrnicas, da mudana nos fluxos da comunicao cientfica e da rpida obsolescncia tecnolgica de seus suportes, a necessidade de criao de mtodos para tratamento e recuperao de dados cientficos toma uma proporo ainda maior. Na rea de genoma, por exemplo, o acesso aberto aos dados de pesquisa j realidade h algum tempo. Desde a dcada de 1980. O International Nucleotide Sequence Database Collaboration (INSDC) mantm o Genbank4 um conjunto de bases de dados que trata informaes sobre sequenciamento genmico das mais diversas espcies. Os dados so abertos, mas com certo limite, isto , apenas pesquisadores que fazem parte do consrcio tm acesso ao compartilhamento dos dados. Atualmente, com a Web e todo o advento tecnolgico, esta base alimentada pelos pesquisadores que submetem os dados e fazem "anotaes" - sobre o andamento da pesquisa, sobre novas concluses, etc. - usando como base uma ontologia chamada Gene Ontology. Isso revela no apenas uma preocupao em juntar os dados, mas tambm em ter dados tratados de forma que seu acesso e seu compartilhamento sejam feitos de forma precisa. Mas no apenas a rea de Genoma que vem se preocupando com a questo: h um consenso no seio das comunidades cientficas de que o acesso aos dados de pesquisa um imperativo de mbito global. Este fato coloca em pauta um problema novo que a gesto de dados de pesquisa num mundo digital interligado por redes de computadores, onde h um fluxo intenso de dados sendo gerados, processados e compartilhados. A partir desse ponto, instala-se, ento, um desafio importante do nosso tempo, que ao mesmo tempo uma oportunidade significativa e essencial para se conduzir a pesquisa cientfica nesse sculo que se inicia (LANNOM, 2011). A Declarao de Berlin sobre o Acesso Aberto ao Conhecimento em Cincias e Humanidades, publicada em 2003, amplia o escopo do que se entende por acesso livre ao definir que as contribuies de acesso livre incluem resultados de pesquisas cientficas originais, dados no processados e metadados, fontes originais, representaes digitais de materiais pictricos e grficos e materiais acadmicos multimdia (Berlim, 2003). Compreendendo a importncia do tema, a D-Lib Magazine5 o peridico mais importante no que tange s pesquisas em bibliotecas digitais publicou no inicio de 2011, um nmero especial sobre dados de pesquisa onde esto endereadas questes como acesso livre, curadoria digital, aquisio e gesto, qualidade e confiabilidade e as possveis conexes entre dados de pesquisa e as publicaes acadmicas tradicionais, que oferecem oportunidades para o surgimento de concepes surpreendentes de documentos, como so, por exemplo, o enhanced document.

geralmente so aceitos na comunidade cientfica como necessrios para a validao dos resultados da pesquisa. 4 http://www.ncbi.nlm.nih.gov/sites/entrez?db=nucleotide 5 http://www.dlib.org/dlib/january11/01contents.html

4

Enhanced Documents ou documentos ampliados - como estamos sugerindo chamar - so instncias de objetos digitais complexos que combinam vrios recursos heterogneos relacionados para uma mesma finalidade cientfica. Por exemplo, uma tese que, ao ser includa em um repositrio institucional ou temtico, agregue os dados de pesquisas utilizados para que ela pudesse ser gerada. Essa idia de documentos ampliados emerge da compreenso de que as publicaes tradicionais so limitadas na sua capacidade de incorporar resultados de todo o ciclo do processo de investigao cientfica. Isso acontece especialmente quando grandes conjuntos de dados so gerados. Nesse momento, fica evidente que os textos acadmicos s podem apresentar os dados de pesquisa de forma condensada. um fato promissor observar que crescentemente os dados de pesquisa esto sendo armazenados em repositrios de dados confiveis, onde gerenciados sob os princpios da curadoria digital, so preservados e mantm sua capacidade de reuso. Entretanto, na atual infraestrutura de comunicao cientfica estes conjuntos de dados no so conectados s publicaes cientficas onde so discutidos. A noo que est por traz dos documentos ampliados precisamente criar pontes que liguem os contedos dos repositrios institucionais, ou seja, publicaes cientficas tradicionais, com os contedos dos repositrios de dados. Assim, o que pode ser observado com clareza que a prpria prtica do fazer cincia reordenada pela intensificao do uso de redes e de computadores na pesquisa cientfica. Uma das mais notveis propriedades dos projetos atuais do que se convencionou chamar eScience o uso sem precedentes de conjuntos de dados digitais distribudos. Disciplinas como Fsica das Partculas, Qumica, Geologia e Arqueologia dependem de forma absoluta do uso de ambientes de rede altamente distribudo, instrumentos automatizados, tcnicas de captura de imagens e programas de simulao. Essas tecnologias tm impactado ampla e profundamente a forma como os cientistas podem conduzir e disseminar suas pesquisas (VERHAAR, 2008), delineando novos fluxos e definindo patamares inditos para a comunicao cientfica, que merecem estudos partindo de muitos olhares. Entretanto, o custo-benefcio de se manter o acesso e a capacidade de reuso aos dados de pesquisa difcil de ser mensurado. O valor de um registro pode estar relacionado possibilidade da reprodutibilidade de um dado experimento onde ele gerado ou capturado. Algumas pesquisas podem ser fceis e baratas de se replicar; outras, podem ser literalmente impossveis de se reproduzir (JANSEN, 2006). Nessa direo, o arquivamento eletrnico de dados comea a ser estimulado ativamente pelas agncias de financiamento de pesquisa, que demandam mais e mais que os projetos de pesquisa contemplem a submisso dos dados gerados em repositrios confiveis. O Relatrio do Projeto Digital Repository Infrastructure Vision for European Research II (Driver II), desenvolvido sob os auspcios da Comunidade Europeia, justifica essa preocupao das agncias de fomento, enfatizando que o acesso a dados de pesquisa proporciona uma srie de vantagens, especialmente quando esses dados esto associados a manuscritos acadmicos, que geralmente so disponveis online. Por exemplo: quando um pesquisador deposita seus dados brutos, ele abre a possibilidade dos seus pares replic-los e, dessa forma, verificar o que est sendo defendido. Na publicao cientfica, isto possibilita tambm que outros pesquisadores reusem os5

dados, os comparem e os combinem com outros dados, de forma que novas pesquisas possam ser geradas. Outro benefcio apontado pelo Relatrio que a curadoria dos dados torna possvel traar a linhagem dos vrios produtos dos projetos de eScience, dado que esses projetos se desenvolvem por vrios estgios, tais como captura de dados, processamento, modelagem e interpretao. Se fosse possvel destacar as inmeras conexes entre os recursos que so produzidos durante os vrios estgios do processo cientfico, isto poderia ser de grande utilidade. (VERHAAR, 2008) No curto perodo do que se convencionou chamar de era digital, algumas instituies cientficas estiveram comprometidas no desenvolvimento de atividades que pudessem salvaguardar os dados cientficos digitais; entretanto, as poucas instituies engajadas nesse processo ainda no estabeleceram prticas e no garantiram os fluxos de recursos que assegurem o completo sucesso da gesto desses dados. O que se observa que ainda persistem lacunas crticas e questes de pesquisas em aberto. (LEE; TIBBO, 2007; HIGGINS, 2011). Para muitas comunidades acadmicas, a gesto e o acesso continuado a esta vasta quantidade de dados constitui um grande desafio. Infelizmente, muitos dos dados produzidos, frequentemente a um custo alto, so irremediavelmente perdidos. Para concluir esta seo, necessrio informar que vrias iniciativas importantes, lideradas pelas prprias comunidades cientficas j cumprem papel vital na garantia do acesso livre aos dados de pesquisa e no que se convencionou chamar de curadoria digital. O Digital Curation Centre (DCC) 6 um exemplo desse tipo de iniciativa que resume e justifica a importncia das suas atividades no seu prprio lema: porque boa pesquisa precisa de bons dados 3.1 Curadoria digital de dados cientficos Os conhecimentos e as prticas acumulados na ltima dcada em preservao digital e acesso resultaram num conjunto de estratgias, abordagens tecnolgicas e atividades que agora so coletivamente conhecidas como curadoria digital. Ainda que seja um conceito em evoluo, j est estabelecido que a curadoria digital envolve a gesto atuante e a preservao de recursos digitais durante todo o ciclo de vida de interesse do mundo acadmico sobre esses dados, tendo como perspectiva o desafio temporal de atender a geraes atuais e futuras de usurios. Pode-se perceber, ento, que, subjacente s metodologias utilizadas pela curadoria digital, esto os processos de arquivamento digital e de preservao digital (HIGGINS, 2011; CONWAY,2011). um fato promissor observar que crescentemente os dados de pesquisa esto sendo armazenados em repositrios de dados confiveis, onde gerenciados sob os princpios da curadoria digital so preservados e mantm a sua capacidade de reuso. Entretanto, na atual infraestrutura de comunicao cientfica estes conjuntos de dados no so conectados s publicaes cientficas onde so discutidos. A ideia que est por traz dos enhanced documents precisamente criar pontes que liguem os contedos dos repositrios institucionais, ou seja, publicaes cientficas tradicionais, com os contedos dos repositrios de dados. O Data Curator Centre (DCC) na sua pgina web nos informa que a curadoria digital envolve a manuteno, a preservao e a agregao de valor a dados de6

http://www.dcc.ac.uk/

6

pesquisa durante o seu ciclo de vida; e que a gesto ativa sobre esses dados reduz as ameaas ao seu valor de longo prazo e minimiza os riscos da obsolescncia digital. Alm de reduzir a duplicao de esforos na criao de dados de pesquisa, a curadoria refora o valor de longo prazo dos dados existentes quando os tornam disponveis para a reutilizao em novas pesquisas de qualidade. Daisy Abbott (2008) amplia um pouco mais a ideia de curadoria digital definindo-a como todas as atividades envolvidas na gesto de dados, desde o planejamento da sua criao quando os sistemas so projetados -, passando pelas boas prticas na digitalizao, na seleo dos formatos e na documentao, e na garantia de estarem sempre disponveis e adequados para serem descobertos e reusados agora e no futuro. A curadoria digital tambm inclui a gesto de grandes conjuntos de dados para uso dirio, assegurando, por exemplo, que eles possam ser pesquisados e continuem viveis, ou seja, capazes de serem lidos e interpretados. Nessa perspectiva, a ideia de curadoria digital estende-se alm do controle do repositrio que arquiva os recursos e envolve a ateno do criador do contedo e dos usurios futuros. A curadoria digital, em resumo, assegura a sustentabilidade dos dados para o futuro, no deixando, entretanto, de conferir valor imediato a eles para os seus criadores e para os seus usurios. Os recursos estratgicos, metodolgicos e as tecnologias envolvidas nas prticas da curadoria digital facilitam o acesso persistente a dados digitais confiveis por meio da melhoria da qualidade desses dados, do seu contexto de pesquisa e da checagem de autenticidade; dessa forma, a curadoria contribui para assegurar a esses dados validade como registro arquivstico, significando que eles podem ser usados no futuro como evidncia legal. O uso de padres comuns entre diferentes conjuntos de dados, proporcionado pela curadoria digital, cria mais oportunidades de buscas transversais e de colaborao. Na tica financeira, o compartilhamento, o reuso dos dados e as oportunidades de novas anlises, alm de outros benefcios, valorizam e protegem o investimento inicial na obteno dos dados. 3.2 Gerenciamento de dados digitais O DCC oferece um modelo para o ciclo de vida da curadoria que reflete uma viso de alto nvel dos estgios necessrios para o sucesso do processo de curadoria e de preservao de dados de pesquisa. O modelo proposto pelo DCC - que parte da concepo ou do recebimento dos dados - est orientado para o planejamento das atividades de curadoria nas organizaes ou consrcios ajudando a garantir que todos os passos do ciclo sero cumpridos. Entretanto, isto no implica que todas as organizaes devam entrar no ciclo no primeiro estgio; na realidade, a operacionalizao dos estgios depender das reas de necessidade de cada organizao. Os elementos chaves do modelo so: dados, objetos digitais e bases de dados. No centro do ciclo de vida da curadoria est o dado digital, que qualquer informao codificada em formato binrio. A ideia de dado inclui: os objetos digitais simples, que so aqueles compostos por um nico arquivo, identificador e metadados, e os objetos digitais complexos, que por sua vez so formados pela combinao de outros objetos digitais formando uma unidade discreta, como , por exemplo, uma pgina web; e as bases de dados, que so definidas como colees estruturadas de registros ou de dados armazenados em sistemas de computadores.

7

As aes que completam a totalidade do ciclo de vida incluem: a descrio e a representao da informao, efetivada pela atribuio de metadados administrativos, tcnicos, estruturais e de representao de acordo com os padres apropriados; a definio de um plano de preservao cujo espectro englobe todo o ciclo de vida da curadoria digital; a manuteno do monitoramento sobre as atividades das comunidades envolvidas, bem como participao no desenvolvimento de padres que possam ser compartilhados, de ferramentas e de software adequados ao problema; estar continuamente alerta e promover aes administrativas e gerenciais planejadas para a curadoria e preservao por todo o ciclo de vida da curadoria. A sequncia de aes do modelo de ciclo de vida da curadoria digital proposto pelo DCC tem os seguintes estgios: Conceituar conceber e planejar a criao do dado, incluindo os mtodos de captura e as opes de armazenamento. Criar e receber criar o dado incluindo o elenco de metadados necessrios sua gesto e compreenso, ou seja, metadados administrativos, descritivos, estruturais e tcnicos; os metadados de preservao podem ser tambm includos no momento da criao do dado. Avaliar e selecionar avaliar o dado e selecionar o que ser objeto dos processos de curadoria e de preservao por longo prazo; manter-se aderente s prticas, s polticas pertinentes e exigncias legais. Incorporar transferir o dado para um arquivo, repositrio, centro de dados ou outro custodiante apropriado. Ao de preservao promover aes para assegurar a preservao de longo prazo e a reteno do dado de natureza oficial; as aes de preservao devem assegurar que o dado permanea autntico, confivel e capaz de ser usado enquanto mantm sua integridade; essas aes de preservao incluem: a limpeza do dado e a sua validao, a adio de metadados de preservao; adio de informao de representao e a garantia de estruturas de dados ou formatos de arquivos aceitveis. Armazenar armazenar o dado de forma segura mantendo a aderncia aos padres relevantes. Acessar, usar e reusar assegurar que o dado pode ser cotidianamente acessado tanto pela sua comunidade alvo, quanto pelos demais usurios interessados no reuso do dado; isto pode ser realizado na forma de informao publicada disponvel publicamente; controle de acesso robusto e procedimento de autenticao podem ser aplicados. Transformar criar novo dados a partir do original, por exemplo, pelo processo de migrao para diferentes formatos ou pela criao de subconjuntos - realizada por meio de seleo ou formulao de consultas derivando novos resultados que podem ser publicados. O DCC estabelece tambm estgios que so aplicados ocasionalmente: Eliminar eliminar o dado que no foi selecionado para curadoria e preservao de longo prazo de acordo com polticas documentadas, diretrizes e exigncias legais.8

Reavaliar retornar ao dado cujos procedimentos de avaliao foram falhos para nova avaliao e possvel seleo. Migrar migrar os dados para um formato diferente; isto pode ser feito no sentido de compatibiliz-lo com o ambiente de armazenamento ou para assegurar a imunidade do dado em relao obsolescncia de hardware e de software. Assim, como se pode verificar, a disseminao da curadoria digital de dados poder levar a uma nova alterao do ciclo da comunicao cientfica.

4 Alterao do Ciclo da Comunicao Cientfica No mbito da Cincia da Informao, vrios modelos de ciclo de comunicao cientfica j foram explorados. Lancaster(1977), Jordan(1973), King e Bryant(1971) so exemplos de autores que desenvolveram estudos a respeito. Em geral, esses primeiros modelos visavam representar os processos envolvidos desde a elaborao do documento pelo pesquisador, passando pelas diversas fases de avaliao, publicao, tratamento, disseminao, obteno at a assimilao e uso para criao de novas pesquisas e consequentemente novos documentos. Este ciclo pode ser visualizado abaixo Rodrigues (Figura 1) no esquema apresentado por Eloi na 3a Conferncia Open Access, na Universidade do Minho, em 2008.

Figura1: Modelo da Comunicao Cientfica Tradicional9

Fonte: Rodrigues (2008) Vickery(1999) publicou um modelo que engloba em seus pressupostos a transferncia por meio de canais eletrnicos (BENCHIMOL, 2009, p.44), fazendo um mapeamento que inclua a transferncia da informao cientfica em meios eletrnicos, abrangendo desde a comunicao informal ( e-mails, listas de discusso, etc) at a comunicao formal (OPACS, peridicos eletrnicos etc.) (VICKERY, 1999, PINHEIRO 2003). No havia dvidas de que a tecnologia e os recursos eletrnicos afetariam o ciclo da comunicao cientfica, principalmente em termos de velocidade e acesso s informaes, mas algumas fases do processo esbarraram numa barreira: a questo do embargo ao acesso aos documentos feito pelas grandes editoras. Em busca de uma soluo para o problema, as iniciativas que incentivavam a autosubmisso de e-prints, bem como a publicao em peridicos de acesso livre possibilitaram uma primeira alterao no ciclo tradicional da comunicao cientfica. No esquema apresentado a seguir (Figura 2), tambm apresentado por Rodrigues (2008) na mesma conferncia pode-se ver o encurtamento no tempo de acesso ao resultado da pesquisa, alm da disseminao desse resultado, que a partir de ento passa a ser mais intensa, j que um nmero maior de pessoas tem acesso publicao.

Figura 2: Modelo da Comunicao Cientfica tradicional alterado pelo Acesso Aberto (RODRIGUES, 2008)

10

Atualmente, em um novo ambiente de pesquisa, quase que inteiramente baseado em redes, computadores e processamento distribudo de conjunto de dados, a incluso de uma nova etapa chamada curadoria digital incorpora-se como uma pea chave no ciclo tradicional de comunicao cientfica baseado em artigos de peridicos. A curadoria digital abre a possibilidade de mudana no ciclo da comunicao cientfica, adicionando uma nova dinmica, na medida em que estabelece metodologias de gesto e de preservao de dados de pesquisa com o foco no reuso dos dados disponveis em meio digital. A situao atual, no entanto, a seguinte: quando, por exemplo, um estudante de doutorado conclui a sua pesquisa e esta registrada na forma de um documento que conhecemos por tese, temos a somente um retrato parcial dos contedos intelectuais gerados no desenrolar de anos de trabalho. Via de regra, os dados de pesquisa que do sustentao tese adormecero armazenados em computadores e mdias pessoais que inexoravelmente sero tragados pela obsolescncia tecnolgica, assim como muitos dados foram simplesmente jogados fora quando ainda existiam somente na verso impressa. Esses dados perdidos significam, muitas das vezes, anos de investimentos financeiros e pessoais jogados fora. Quem perde com isso, algumas vezes, o prprio pesquisador que no pode reutilizar seus prprios dados e a sociedade que tem o desenvolvimento da cincia atrasado pela necessidade de se replicar experimentos cientficos j desenvolvidos antes; sem falar nos custos financeiros envolvidos no levantamento e gerao de dados. Se o compartilhamento de dados cientficos, atravs das tcnicas de curadoria digital passa a fazer parte do ciclo da comunicao cientfica, se estabelece ento uma nova alterao do ciclo, a partir do momento em que uma nova relao se estabelece entre pesquisadores, isto , um pesquisador deposita toda a confiana nos dados levantados pelo outro para desenvolver nova pesquisa. Desta forma, a curadoria digital reduz o ciclo da comunicao cientfica na medida em que oferece aos pesquisadores dados de pesquisa prontos para o reuso, ou seja, dados tratados, acompanhados por metadados semnticos e estruturais que assegurariam o seu significado e a reconstruo de sua apresentao correta - e metadados de preservao - que mantm sua integridade, preciso e autenticidade.

11

O esquema abaixo (Figura 3) pode ilustrar essa nova perspectiva:

Figura 3: Modelo da comunicao cientfica tradicional alterado pelo reuso de dados cientficos. Assim, tem-se um terceiro modelo que pode ser explicado da seguinte forma: Primeiramente, um pesquisador gera dados no desenvolvimento de sua pesquisa; em seguida, esses dados so depositados em um Repositrio 1, que foi chamado no esquema acima de Repositrio de Dados; esses dados so mantidos em acesso fechado por um tempo. Simultaneamente, o pesquisador submete os resultados de sua pesquisa em forma de artigo a um peridico cientfico que quando aprovado pelos pares tero tambm, consequentemente, os dados avaliados, como no ciclo tradicional da comunicao cientfica. Posteriormente, com artigo avaliado e aprovado, a terceira etapa a da submisso do ps-print em um Repositrio 2 (Institucional ou Temtico) que interoperando com o Repositrio 1 gerar um terceiro tipo de documento chamado documento ampliado, ou seja, exatamente a soma do documento avaliado com os dados que o geraram. Neste momento o acesso totalmente aberto, permitindo que um segundo pesquisador, ao acessar o documento tenha acesso tambm aos dados produzidos, podendo reutiliz-los, encurtando assim, o tempo gasto para reproduzir tal estudo, dar continuidade ao mesmo com outro enfoque, alm de verificar a veracidade dos resultados publicados. Como j mencionado, o encurtamento do ciclo agora se encontra a partir do reuso dos dados cientficos para gerao de novos resultados. importante ressaltar que a alterao que se d no novo ciclo da comunicao cientfica no est apenas no mbito do encurtamento do mesmo, mas tambm na esfera da qualidade da informao acessada, tendo em vista que, a partir da proposta da curadoria digital, pode-se ter acesso dados cientficos que antes no eram12

disseminados, impossibilitando a replicao dos procedimentos que levaram ao resultado de determinada pesquisa. 5 Consideraes Finais O presente artigo veio apresentar um novo conceito, no que diz respeito ao tratamento e preservao dos dados cientficos, que pode provocar novas alteraes no ciclo da comunicao cientfica: a curadoria digital. No entanto, no se pretendeu esgotar todas as questes que envolvem este novo conceito. Em um novo ambiente de pesquisa quase que inteiramente baseado em redes, computadores e processamento distribudo de conjunto de dados, o ciclo de vida da curadoria digital pode incorporar-se como uma pea chave no ciclo tradicional de comunicao cientfica. Assim como se debate a questo do acesso livre aos peridicos acadmicos, criando-se novos padres de comunicao cientfica - mais geis e mais dinmicos e organicamente mais prximos das comunidades cientficas - hoje fica claro que preciso estender o movimento de livre acesso tambm aos dados cientficos. Esses recursos constituem uma fatia importante do estoque de conhecimento acumulado pelo trabalho de pesquisa e fazem parte da memria cientfica. Questes como: quem sero os responsveis pela curadoria desses dados? Que tipos de pesquisas devero conceder os dados? Como adquirir esses dados? Quem poder ter acesso? Qual o nvel de qualidade e confiabilidade? Ou qual o nvel de transparncia? So questes que merecem ser discutidas amplamente. No mbito da rea de Representao e Tratamento da Informao, questes relacionadas ao estabelecimento de padres de metadados, bem como o controle de vocabulrio tambm merecem ser estudadas e esclarecidas com mais detalhes. Devemse incluir, tambm, tpicos ligados aos padres de preservao e acesso aos dados digitais. Enfim, h uma porta aberta para uma gama de estudos sobre esse novo desafio que se coloca para a Cincia da Informao. Referncias ABBOT, Daisy. What is digital curation?. Digital Curation Center, 2008. Disponvel em: Acesso em: 20 dez. 2011. BENCHIMOL, Alegria Clia. Informao o objeto etnogrfico: percurso interdisciplinar no museu paraense Emlio Goeldi. Dissertao (Mestrado em Cincia da Informao). IBICT/UFF. Niteri, RJ. 2009. BERLIN Declaration on Open Access to Knowledge in the Sciences and Humanities. Berlin, 2003. Disponvel em: Acesso em: 20 dez. 2011 CONWAY, Esther et al. Curating scientific research data for the long term: a preservation analysis method in context . The International Journal of Digital Curation, n. 2, v.6, 2011.13

HIGGINS, Sarah. Digital curation: the emergence of a new discipline . The International Journal of Digital Curation, v. 6, n. 2, 2011. Disponvel em: . Acesso em: 20 dez. 2011. JANSEN, Hans. Permanent access to electronic journals. Information Services & Use, v. 26, 2006. Disponvel em: Acesso em: 10 nov. 2010. JORDAN, Michael P. Expanding the invisible college. In: Annual Meeting Los Angeles, 36, 1973. Los Angeles. Anais, Los Angeles, 1973. KAPLAN, Norman; STORER, Norman W. Scientific communication. In: SILLS, David L. International Encyclopedia of the Social Sciences. New York: The Macmillan Co & The Free Press, 1968. v.13. p. 112 117. KING, Donald W; BRYANT, Edward C. The evaluation of information services and products. Washington: Information resources, 1971. LANCASTER, F.W. The measurement and evaluation of the library services. Airlington: Information Resources, 1977. LANNOM, Laurence. Research Data. D-Lib Magazine, v. 17, n. 1/2, Jan. / Feb. 2011. Disponvel em: < http://www.dlib.org/dlib/january11/01editorial.html>. Acesso em: 20 dez. 2011. LEE, Cristopher; TIBBO, Helen. Digital curation and trusted respositories: steps toward success. Journal of Digital Information, v. 8, n. 2, 2007. Disponvel em: Acesso em: 20 dez. 2011. MARQUES-AGUIAR, Sueli. Bases de dados cientficos de primatas. [mensagem pessoal] Mensagem recebida por: . em: 05 dez. 2011. MUELLER, Suzana Pinheiro Machado. A comunicao cientfica e o movimento de acesso livre ao conhecimento. Ci. Inf., Braslia, v. 35, n. 2, 2006. OCDE. Principles and guidelines for access to research data from public data . 2007. Disponvel em: Acesso em: 17 fev. 2012. PINHEIRO, Lena Vnia. Comunidades cientficas e infra-estrutura tecnolgica no Brasil para uso de recursos eletrnicos de comunicao e informao na pesquisa. Ci. Inf., Braslia, v.32, n.3, p.62-73, 2003. RODRIGUES, Eloi. As universidades e o open access: apresentao para dirigentes universitrios. In: CONFERNCIA OPEN ACCESS, 3, 2008 Braga. Apresentao... Braga: Universidade do Minho: 15 e 16 dez. 2008. Disponvel em: Acesso em: 21 fev 2011.14

STORER, Norman. W. The social system of science. New York: Holt, Hinehardt and Winston, 1966. 180 p. TARGINO, Maria da Graa. Comunicao cientfica: uma reviso dos elementos bsicos. Inf. & Soc. Joo Pessoa, v.10, n.2, p.37-85, 2000 VERHAAR, Peter. Report on object models and functionalities. DRIVER, 2008. Disponvel em: Acesso em: 20 dez. 2011. VICKERY, Brian. A century of scientific and technical information. Journal of Documentation, v. 55, n. 5, p. 476-527, Dec. 1999. WULF, W. The national collaboratory. In:______. Towards a national collaborator: Unpublished report of a National Science Foundation invitational workshop, Rockefeller University, New York. 1989. ZIMAN, F. An introduction to science studies: the philosophical and social aspects of science andtechnology. Cambridge: Cambridge University, 1984. 203 p.

15