• No results found

Added value: Scientific results and international collaboration

Público (Public)

Uma melhor informação dos rendimentos públicos que melhoram a decisão no que diz respeito ao:

Planejamento ambiental e econômico; Política federal, estadual e local;

Opções de melhoria social e na educação como o uso de dinheiro dos impostos; Melhorar o estilo de vida pessoal e saúde, como recreação e nutrição.

Patrocinador ou agências de financiamento de

pesquisa (Research sponsor)

Organizações que patrocinam a pesquisa devem maximizar o valor dos dólares para a pesquisa. O compartilhamento de dados aumenta o valor de investimentos em pesquisa, permitindo:

Verificação de métricas de desempenho e resultados; Novas pesquisas e maior retorno sobre o investimento; Avanço da ciência;

Redução de gastos evitando a duplicação de dados. Comunidade

Científica (Scientific

Community)

Acesso a pesquisas relacionadas permite aos membros da comunidade: Construir sobre o trabalho de outros e adicionar, em vez de repetir, a ciência; Realizar meta-análises que não podem ser realizadas com conjuntos de dados individuais ou laboratoriais;

Compartilhar recursos e perspectivas de modo que a compreensão seja expandida e compartilhada;

Incremento na transparência, reprodutibilidade e comparabilidade de resultados; Expandir avaliação metodológica, recomendações e aperfeiçoamento;

Educar novos pesquisadores quanto aos resultados mais atuais e significativos. Cientista

(Scientist)

Cientistas que compartilham dados ganham o benefício de: Pesquisa patrocinada reconhecida como uma autoridade;

Reconhecimento de patrocinador da pesquisa como uma fonte autorizada e sábio investimento;

Melhoria da qualidade de dados devido ao uso expandido, verificações de campo e feedback;

Maior oportunidade para a troca de dados;

Estabelecimento de melhores ligações à rede científica, colegas e potenciais colaboradores.

Fonte: Adaptado do DataONE Education Module (2012).

Esse modelo apresenta diferentes perspectivas (do pesquisador e da sociedade) para a comunicação científica. A base desses novos modelos está pautada no gerenciamento de dados científicos, de natureza digital e aberta. O gerenciamento de dados científicos envolve diferentes fluxos de informação com processos e subprocessos.

Além do compartilhamento, é necessário que o processo de gestão dos dados adote os procedimentos, padrões e técnicas em conformidade internacional. Por exemplo, fornecer metadados confiáveis e com qualidade evita o uso inapropriado de termos ou parâmetros, seguridade e confiabilidade de dados sensíveis, falta de créditos e agradecimentos, perda de vantagem competitiva em pesquisas financiadas.

No cenário internacional, as agências financiadoras e instituições de pesquisa nos “últimos anos emitiram declarações e políticas ressaltando a necessidade para solicitação de arquivamento de dados, e algumas agências de financiamento começaram a exigir que os projetos de dados que elas financiam sejam depositados em um arquivo público” (ICPSR, 2012, on-line). A partir das políticas institucionalizadas no âmbito destas instituições, a maioria dos projetos de pesquisas financiados segue as recomendações para adotar uma prática baseada em ferramentas e modelos para o gerenciamento de dados científicos.

Na conjectura atual o tempo é despendido na geração de dados primários e o valor agregado destes em cada área do conhecimento. Dessa forma, o gerenciamento de dados científicos traz à tona diversas questões que envolvem o uso, reuso, reprodutibilidade, compartilhamento, gerenciamento, armazenamento, curadoria/preservação de dados, além de questões de propriedade intelectual, software, hardware, servidores, padrões de metadados, protocolos de interoperabilidade, controle de qualidade, bem como pesquisadores qualificados e pessoal especializado.

A sistemática do modelo de ciclo de vida possui diversos estágios, objetivando um processo eficiente e adequado para o compartilhamento, uso e reuso de dados científicos. Em áreas como “as ciências da vida e outros campos que dependem de dados observacionais, a situação está ficando cada vez mais complexa à medida que os dados são usados para modelagem avançada, a qual cria novos conjuntos de dados” (TENOPIR et al., 2011, p. 4, tradução nossa).

Para o tratamento e curadoria de dados científicos, o pesquisador precisa compartilhar seus dados para uso e reuso de longo prazo. Pesquisadores e institutos de pesquisa começaram a identificar que existem desperdícios na duplicação de pesquisas financiadas, tempo demandado para a execução e do descarte na geração do valor agregado aos dados primários em diferentes áreas. O universo que envolve os dados de pesquisa é infinito. Dados de pesquisas são gerados, instantaneamente, em diversos ambientes e áreas do conhecimento. Para o tratamento e curadoria de dados científicos, o pesquisador precisa compartilhar seus dados para uso e reuso de longo prazo. Pesquisadores e institutos de pesquisa começaram a identificar que existem desperdícios na duplicação de pesquisas financiadas, tempo demandado para a execução e do descarte na geração do valor agregado aos dados primários em diferentes áreas. A Figura 11 ilustra os diferentes cenários de coleta de dados primários.

Figura 11 – Cenário dos dados primários

Fonte: Adaptado do DataONE (2015).

O compartilhamento de dados de pesquisa não é algo recente, “há mais de 40 anos, cientistas da computação já compartilhavam arquivos, de forma anônima, através de File

Transfer Protocol (FTP), [...] para transferir arquivos de um computador hospedeiro para

outro, em uma rede” (MACHADO, 2015, p. 201). O compartilhamento inclui, além dos resultados, os dados primários de pesquisas. As abordagens contemporâneas das publicações científicas que permeiam a ambiência da e-Science estão direcionadas para o aproveitamento intenso dos recursos e ferramentas tecnológicas, possibilidades de compartilhamento e colaboração científica e reutilização de pesquisas.

Em 2009, David Lafrenière, da Universidade de Montreal, recuperou uma imagem de HR 8799 do planeta mais externo usando dados do Hubble coletados muito mais cedo, em

1998, com a câmera de infravermelho próximo e o Multiobjeto Espectrômetro (NICMOS). Duas décadas posteriores à descoberta de David Lafrenière, numa nova análise meticulosa dos mesmos dados arquivísticos NICMOS, o pesquisador Rémi Soummer do Space Telescope

Science Institute em Baltimore encontrou evidências visuais para todos os três planetas

externos (NATIONAL AERONAUTICS AND SPACE ADMINISTRATION, 2011).

O quarto planeta não pôde ser visto porque a coronograph NICMOS o obscureceu. Ao encontrar estes planetas mais velhos no Hubble data, a equipe demonstrou ter um recurso valioso para determinar o movimento orbital que utiliza dados retrospectivos para comparar à posição anterior do planeta com aqueles vistos em observações mais recentes, como é demonstrada na Figura 12.

Figura 12 - Imagem da HR 8799 no sistema planetário

Fonte: NASA (2011).

Esse exemplo demonstra a utilidade do arquivo do Hubble Data que contém imagens e informações espectrais coletadas em mais de 20 (vinte) anos de observações. A descoberta tem uma base fundada no método de Lafreniére. Lafrenière foi o primeiro pesquisador a

demonstrar o poder de uma nova técnica de processamento de dados para recuperar assinaturas planetárias fracas do brilho de suas estrelas centrais. Ele também reforça uma nova abordagem para a descoberta adicional de planetas que, a partir de dados arquivados no

Hubble data somados a novos dados e informações trouxeram um avanço para a ciência e

perspectivas para novas descobertas.

No cenário nacional, a iniciativa brasileira na área de Biodiversidade é uma iniciativa que desenvolveu um sistema de gestão, integração e monitoramento de dados da Biodiversidade no Brasil. Considera-se que o “processo de compartilhamento e gestão de dados abertos é muito incipiente, muito embora já existam algumas iniciativas que estão sendo direcionadas a partir de um processo integrado de gestão de monitoramento de dados primários da biodiversidade” (CORRÊA et al., 2004, p. 1). O projeto pioneiro com dados da Biodiversidade no Brasil está sendo desenvolvido pela Universidade de São Paulo, instituições de pesquisas ambientais e o Ministério do Meio Ambiente (MMA). Os dados foram adequados à sistemática e à infraestrutura tecnológica baseados na perspectiva da e-

Science. O gerenciamento de dados de pesquisa é possível a partir do seu compartilhamento.

A importância do compartilhamento de dados no cenário brasileiro requer esforços coletivos, recursos, diretrizes, políticas governamentais e institucionais. A disponibilidade dos pesquisadores para prover seus dados e torná-los abertos e acessíveis para reuso possibilitará benefícios em larga escala e o avanço da ciência aberta no contexto brasileiro. Instituições internacionais, organizações governamentais, acadêmicas e de pesquisas, em especial nos Estados Unidos, adotam o modelo Data Lifecycle como uma prática mandatória e rotineira na investigação científica. Esta fase da pesquisa será conduzida dentro de um modelo e da adoção de padrões internacionais validados para o gerenciamento de dados científicos.

Apontar para a importância do compartilhamento de dados no cenário brasileiro requer que esforços, recursos, diretrizes, políticas e disponibilidade dos pesquisadores sejam agregados em uma finalidade coletiva, para que os benefícios sejam em larga escala e em prol do avanço da ciência.

As subseções sequentes serão destinadas ao modelo de ciclo de vida dos dados. Com a intenção de delimitar o foco deste capítulo serão abordados os dados de pesquisa abertos de natureza científica e serão denominados, para efeito desta pesquisa, dados científicos.

4.3 MODELOS DE CICLO DE VIDA DOS DADOS

O ciclo de vida dos dados científicos é um modelo aplicado à gestão de dados abertos e de natureza científica. As etapas do processo de gestão e compartilhamento de dados estão contidas no ciclo de vida dos dados. Muitas iniciativas institucionais e governamentais no contexto internacional foram desenvolvidas a partir desse modelo para a padronização no processo de coleta, gerenciamento, curadoria e preservação desses dados. As seções apresentam modelos de ciclo de vida que são adotados por diferentes instituições.

4.3.1 Modelo de Ciclo de Vida do ICPSR

O modelo de ciclo de vida de dados desenvolvido pelo Inter-university Consortium

for Political and Social Research (ICPSR) em 2013, tem uma sistemática de com seis

estágios. É recomendado que o gerenciamento de dados e os planos de compartilhamento sejam desenvolvidos em conjunto com um arquivo para maximizar a utilidade dos dados e garantir a disponibilidade desses dados no futuro.

O ciclo inicia com a proposta de desenvolvimento do plano de gerenciamento dos dados e finaliza com o depósito dos dados. Conforme o referido modelo, o pesquisador deve cumprir a sistemática contida em cada fase do ciclo da seguinte forma: