• No results found

A organiza¸c˜ao das unidades funcionais em um pipeline bioinform´atico para projetos genoma depende do tipo, caracter´ısticas e necessidades do projeto em que deseja-se utilizar (para recentes exemplos, ver [21,41,46]). Entretanto, nas seguintes subse¸c˜oes, apresentamos uma organiza¸c˜ao t´ıpica e simplificada dessas unidades funcionais (Fig.3.1).

Laboratórios de seqüenciamento de DNA 45!%$ &*r@ $%?AE ... ACTT GTCA CTGG ... Genoma anotado Leituras analógicas Leituras digitalizadas Seqüência montada Seqüência montada Mapa do genoma TAGFTA GTCGGA CAATGG GGTTAT ... Identificação de Bases Edição das Leituras Montagem do Genoma Anotação do Genoma Gene A ... Função ...

Figura 3.1: Organiza¸c˜ao t´ıpica de um pipeline bioinform´atico para projetos genoma. Cada bloco representa uma unidade funcional e cada seta o fluxo da informa¸c˜ao.

3.1.1 Identifica¸c˜ao de Bases

As entradas para o pipeline bioinform´atico s˜ao as leituras (reads) dos fragmentos produzidos pelo seq¨uenciador autom´atico de DNA com informa¸c˜oes anal´ogicas que representam os nucleot´ıdeos lidos deste equipamento (raw data), chamados de arquivos de cromatograma, de um dos fragmentos pr´oprios do m´etodo de seq¨uenciamento.

Para converter esses dados anal´ogicos em fragmentos de bases, as leituras s˜ao submetidas a um programa de identifica¸c˜ao, denominado base-caller, o qual as identifica comoA,C,Gou T, atribuindo um valor de qualidade para cada um. O r´otulo N ´e atribu´ıdo no caso de um nucleot´ıdeo n˜ao ser identificado ou possuir uma qualidade muito baixa (Fig. 3.2).

A orienta¸c˜ao de um fragmento ´e desconhecida e freq¨uentemente as m´aquinas de seq¨uenciamento autom´atico apresentam erros nas leituras dos fragmentos de DNA. Uma boa parte dos fragmentos cont´em erros em uma taxa de 1 a 5%. Muito mais erros ocorrem nos extremos das leituras [39,45].

Nos trabalhos de Ewing [22,23], as atribui¸c˜oes dos valores confi´aveis aos nucleot´ıdeos s˜ao dadas por um algoritmo que tem como base a an´alise de Fourier [38]. O valor de qualidade de uma base em um fragmento ´e q = −10 log10p, onde p ´e a probabilidade de erro estimado para a base. Assim, os

valores de qualidade est˜ao definidos para inteiros positivos pequenos para cobrir um amplo intervalo de probabilidade de erro. Esse valor ´e importante para determinar se um fragmento precisa ser re-seq¨uenciado.

3.1. UNIDADES FUNCIONAIS 17

Figura 3.2: Representa¸c˜ao da identifica¸c˜ao de bases de leituras de trˆes fragmentos arbitr´arios. As bases com valor de baixa qualidade s˜ao denotadas com letras min´usculas.

3.1.2 Montagem do Genoma

Esta etapa consiste na gera¸c˜ao da seq¨uˆencia genˆomica a partir dos fragmentos j´a digitaliza- dos. Os programas utilizados s˜ao baseados em algoritmos heur´ısticos e de programa¸c˜ao dinˆamica de alinhamento de seq¨uˆencias que essencialmente procuram encontrar redundˆancias entre fragmentos, agrupando os que tenham uma parte comum, que formam fragmentos maiores, chamados fragmentos consensos ou cont´ıguos (contigs ou contiguous.) [39].

Os genomas de diferentes organismos da mesma esp´ecie n˜ao s˜ao idˆenticos devido ao polimorfismo entre eles (e.g. estima-se uma diferen¸ca em uma taxa de 1 em 1000 bases para o genoma de duas pessoas diferentes [2]). Assim, as regi˜oes no genoma com alta taxa de polimorfismo s˜ao um problema nesta etapa da montagem [45].

O seq¨uenciamento termina quando o aumento no n´umero de fragmentos n˜ao contribui para o alongamento dos consensos, resultando ainda em regi˜oes onde n˜ao se conhece a seq¨uˆencia devido a contaminantes nas flutua¸c˜oes de clonagem, presen¸ca de seq¨uˆencias repetidas, dentre outros [39]. Pode-se usar m´etodos biol´ogicos alternativos para adicionar mais fragmentos, podendo tamb´em ser retirados do conjunto de entrada. A montagem termina quando produz tantos consensos quanto

replicons1 do genoma e todas as bases tenham um valor de qualidade aceit´avel dependendo do valor estabelecido para o projeto.

Existem diferentes maneiras para certificar que uma seq¨uˆencia genˆomica seja a correta [2]. A seq¨uˆencia pode ser comparada com pequenas partes de um genoma que tenha sido seq¨uenciado e anotado previamente ou com regi˜oes de mapas genˆomicos. Se uma montagem ´e consistente com regi˜oes dispersas de informa¸c˜ao conhecida, ent˜ao ´e bastante prov´avel que toda a seq¨uˆencia seja a correta [48].

3.1.3 Edi¸c˜ao das Leituras

Esta etapa consiste nas opera¸c˜oes de substitui¸c˜ao, remo¸c˜ao ou inser¸c˜ao de bases. Permitindo assim a corre¸c˜ao de poss´ıveis erros cometidos na identifica¸c˜ao de nucleot´ıdeos e nos erros da pr´opria montagem. Em geral, isso pode ser feito devido `a existˆencia de um ou mais fragmentos que tenham bases adequadas com qualidade alta para inferir a corre¸c˜ao da base incorreta [41].

3.1.4 Anota¸c˜ao do Genoma

Esta etapa ´e cr´ıtica porque consiste na identifica¸c˜ao de regi˜oes onde est˜ao localizados os poss´ıveis genes para depois determinar quais s˜ao suas fun¸c˜oes, descri¸c˜oes ou categoriza¸c˜oes biol´ogicas [45,48]. As opera¸c˜oes comuns nesta etapa s˜ao:

1. Identifica¸c˜ao dos genes (Se¸c˜ao2.4);

2. Descri¸c˜ao de genes, geralmente realizada com ajuda de outras montagens de outros organismos, cujas fun¸c˜oes j´a s˜ao conhecidas, pois as seq¨uˆencias de organismos estruturalmente similares podem ter tamb´em fun¸c˜oes similares. Esta tarefa pode ser realizada de forma semi-autom´atica para a ajuda na classifica¸c˜ao dos genes identificados;

3. Constru¸c˜ao do mapa gen´etico, mostrando a disposi¸c˜ao, orienta¸c˜ao e categoria geral dos genes do organismo montado.

Veja [48], para uma descri¸c˜ao detalhada das categorias t´ıpicas de anota¸c˜ao, t´ecnicas usadas, e modelos sociol´ogicos que tˆem sido adotados pelos pesquisadores.