2 Beskrivelser av berggrunnens oppbygning og struktur på land
2.4 Sprø strukturelementer i berggrunnen
2.4.1 Forkastninger
bacterianos.
Criou-se um esquema relacional de banco de dados para armazenar, compartilhar e facilitar a consulta dos genomas de C. pseudotuberculosis denominado CpDB. Porém, apenas um banco de dados relacional não é suficiente para esta demanda, visto que genomas filogeneticamente próximos ao de C. pseudotuberculosis também precisam ser comparados. Do mesmo modo, diferentes versões de genomas criados, por exemplo, como consequência de uma anotação melhorada também precisam ser comparados. Para esse propósito, além do banco de dados relacional, também criou-se um programa em linguagem C que interpreta dados em formato EMBL e GenBank convertendo-os para o formato de entrada de nosso esquema relacional de banco de dados. Esse programa pertence a uma categoria denominada como parser na disciplina de Compiladores, geralmente ofertada em cursos de Ciências da Computação. Um parser é um programa conversor entre formatos específicos; nesse caso o parser foi denominado 'parseEMBLtoCpDB'. Esse binômio (CpDB e seu parser para entrada de dados) continua sendo uma ferramenta essencial para todos os genomas que o nosso grupo de pesquisa deposita no GenBank. Até a data de defesa dessa tese, o CpDB e seu parser foram utilizados no auxilio da montagem, anotação e depósito em bancos de dados públicos de 15 genomas de C. pseudotuberculosis, um genoma de Campylobacter fetus subespécie venerealis, dois genomas de Streptococcus, um genoma de Lactococcus lactis e um genoma de uma Archae.
A seção “Automated functional annotation”, faz parte de um capítulo de livro “Whole Genome Annotation: in silico Analysis” (Seção 6.2.6), publicado pelo nosso grupo de pesquisa. Esse capítulo de livro em sua maioria é constituído de material teórico, porém possui uma seção prática que é apresentada em destaque como um dos resultados dessa tese. A referida seção fala sobre a anotação automática de genomas e sobre a transferência de anotação de um genoma manualmente anotado para um genoma o qual se possui apenas uma predição gênica, ambas possibilidades oferecidas pelo CpDB e seu parser de formatação de dados para alimentar o banco de dados. Essa transferência de anotação está sendo extensivamente utilizada no pangenoma em construção da C. pseudotuberculosis. Ao final desse texto é apresentado o CpDB como opção para transferência de anotação automática de genomas e é oferecido um endereço (no formato de repositório subversion) para que um interessado baixe um tutorial com aproximadamente 30 passos para realizar uma transferência de anotação entre genomas. Esse tutorial possui versões em inglês e
português, bem como todos os dados e programas, disponíveis após uma operação de checkout do repositório subversion. Na sessão de métodos da tese o CpDB foi explicado com detalhes e foram documentados o código fonte do CpDB e do parser para entrada de dados (Seção 6.1.2).
3.1.7.1 Discussão
A anotação funcional pode impor desafios de gerenciamento e recuperação de dados ao ser feita por várias pessoas, trabalhando em locais distintos e utilizando sistemas operacionais diversos. Ao mesmo tempo que a anotação funcional do genoma de uma linhagem é iniciada, a montagem de uma outra linhagem pode ser iniciada. Isso impõem o desafio da incorporação da anotação funcional entre linhagens. Nesse contexto de confrontação com problemas clássicos de administração de dados, pensou-se na utilização em uma solução clássica, um banco de dados relacional. Um modelo relacional de banco de dados denominado CpDB (Figura 10) foi criado no SGBD PostgreSQL (POSTGRES, 1993) contendo as principais entidades do formato EMBL para as quais era necessário prover dados, visto que o objeto final desses dados era um arquivo EMBL que seria depositado no banco de dados de genomas do NCBI. Foi construído um parser em linguagem de programação C padrão utilizando uma biblioteca de construção de compiladores compatível com o padrão Lex/YACC. Esse compilador extrai dados relevantes de arquivos EMBL de modo a prover dados para popular um banco de dados com o esquema relacional CpDB. Uma vez que dados da anotação manual estão presentes no banco de dados é possível, por exemplo, garantir que o identificador único de um ORF não está se repetindo devido a, por exemplo, um erro de edição durante uma anotação manual. Dessa forma, evita-se criar um programa para esse fim. Com todo o formato EMBL corrigido, convertido e integrado no CpDB, é possível exportar os dados em formato EMBL e gerar uma nova versão de uma anotação. Uma consulta em SQL permite extrair dados relevantes ao formato EMBL que preenchem qualificadores de texto do formato EMBL, criando um novo arquivo EMBL. Para reaproveitar a curadoria manual e o posterior tratamento feito aos dados de uma linhagem curada para uma nova linhagem, um arquivo no formato “m8” do BLAST é gerado para criar um elo entre um banco de dados curado manualmente com um banco de dados que está sendo trabalhado. Por meio desse elo mais de 90% dos dados curados podem ser reaproveitados e uma nova exportação de formato EMBL pode ser gerada para posterior verificação manual.
Dentre as principais vantagens do uso de um banco de dados relacionais para armazenar os dados de um genoma pode ser citada a centralização de dados em um
servidor com controle de acessos, eliminando o uso de arquivos diversos armazenados em sistemas de arquivos de sistemas operacionais também diversos. Outro ponto que merece destaque é o fato de que muitos procedimentos computacionais que antes precisariam ter um código de programa escrito em uma linguagem de programação, como por exemplo, PERL não são necessários, pois um SGBD possui programas embutidos que garantem a integridade de dados. O CpDB foi utilizado com sucesso para mapear todas as entidades pertinentes de arquivos EMBL, gerados e manipulados pelo programa ARTEMIS (Rutherford e cols., 2000). Assim foi possível importar os dados de um formato EMBL para dentro do banco de dados e depois fazer o caminho inverso, complementando a anotação com dados oriundos de outros bancos de dados, como por exemplo, o banco do Gene Ontology.
Dados armazenados no esquema relacional CpDB podem ser exibidos para um pesquisador em dois formatos gráficos. Um dos formatos é o EMBL que o programa ARTEMIS interpreta e exibe em ambiente desktop; o outro formato é o GBROWSE utilizado no ambiente web. O banco de dados relacionais CpDB permite exportar o formato esperado pelo GBROWSE com uma consulta em formato SQL que possui apenas uma linha de tamanho. Um projeto genoma que utilize um SGBD relacional terá uma plataforma de depósito, análise e recuperação de dado confiável, exaustivamente testada e melhorada bem como uma modelagem intuitiva e adequada a modelos de relacionamentos entre entidades biológicas.
Outro exemplo de como um SGBD economiza a escrita de programas que visam garantir a integridade de dados é fornecido pela criação de relacionamentos entre as entidades do banco. No esquema CpDB foram criados relacionamentos de dependência entre a entidade GENE e entidades relacionadas como SIGNAL que armazena dados relativos à predição de peptídeo sinal principalmente da via de secreção Sec. Esse relacionamento é configurado de modo que um peptídeo sinal somente possa ser inserido no CpDB caso estivesse relacionado com um identificador que pertença a um gene previamente cadastrado. Assim nenhum peptídeo sinal é cadastrado no banco de dados de modo a que ficasse desconectado de um gene. Caso a identificação única de um gene seja alterada, então automaticamente o SGBD modifica esse identificador junto ao seu peptídeo sinal; caso essa modificação seja uma remoção do gene, então o peptídeo sinal correspondente será removido também, sem que o administrador do banco de dados necessite intervir para que essas tarefas de manutenção sejam executadas.
As situações exemplificadas aqui são o cotidiano de um processo de montagem e anotação de genomas e mostram a importância fundamental de um banco de dados para
garantir a integridade dos dados de uma anotação. Mostra também que se dispondo de configurações simples entre entidades relacionadas é possível garantir a integridade e consistência de dados sem a necessidade de escrever código para esse fim. Também não são necessárias pessoas dedicadas para executar e manter códigos de programação e manualmente garantir a integridade dos dados. Um SGBD para armazenar dados biológicos não é uma novidade e sim uma necessidade, uma regra que deve ser seguida, pensada e modelada antes que qualquer trabalho de maior proporção tenha início. Empresas notórias e essências sobrevivem atualmente, num contexto de geração de gigabytes de dados diários, por conta da confiança que depositam em seus SGBD's e na medida em que são correspondidos. Para profissionalizar o tratamento de dados biológicos, e seguir para etapas mais complexas, é necessario que os bancos de dados sejam imperativos no tratamento desses dados.