Concorrem para a genética contemporânea uma nova vaga de investigadores interessados, não na análise física do genoma – esta mais clássica –, mas sim na análise informacional das sequências biológicas. A análise informacional está direccionada para a compreensão da organização do código do ADN, usando as contribuições da informática [40], ao nível da teoria de informação de Shannon [41] e ao nível dos algoritmos de caracterização, segmentação e mapeamento genómico, os modelos matemáticos, estatísticos e probabilísticos. Por outro lado, existem abordagens gráficas que incluem representações pictóricas da informação do ADN bem como compreensões da informação genómica à luz da teoria dos fractais [42-44].
Convém neste estádio de descrição dos termos do trabalho, diferenciar similaridade e homologia, no tocante à análise de sequências. A homologia é uma similaridade com fundamento funcional, é deduzida pela similaridade e pelos conhecimentos reunidos pelas anotações de genomas. A similaridade é computada, trata-se de uma análise puramente informacional sem intuito primário de determinar identidade funcional ou filogenética. Neste trabalho é a similaridade que mais interessa, será pela sua análise
que emanarão os padrões exactos e aproximados que integrarão o dicionário, sendo seguramente a componente mais crítica no sucesso da compressão.
2.3.1. ADN repetitivo: motifs e padrões
Tomando como exemplo o genoma humano, mais de metade da sua composição consiste, do ponto de vista informacional, em subsequências repetitivas. Se algumas dessas subsequências que se repetem ao longo das sequências possuem uma função bem determinada, como por exemplo os promotores TATA, então tais elementos são denominados de motifs. Por outro lado, existem inúmeras repetições cuja funcionalidade não está directamente relacionada e podem derivar, por exemplo, da saturação resultante de um código com apenas 4 símbolos, ou 64 codões, nestes casos vamos denominar estas repetições de padrões. As regiões não codificantes são ricas em padrões e linguisticamente diferentes das regiões codificantes [45, 46]. Se inicialmente se devotavam todos os meios e atenção na análise das regiões de codificação, actualmente procura-se estudar a sequência integralmente. De facto, o interesse científico das regiões não codificantes ainda é secundário e o seu estudo incipiente. A aparente redundância dessas regiões que apresentam ADN repetitivo tem elevado interesse dentro da temática deste trabalho, mas o seu interesse não se esgota na teoria da informação como o atestam os estudos [47-50]. Existem muitas variantes de sequências repetitivas, e.g., satélites, ALUs, repetições adjacentes (tandem repeats), repetições dispersas (interspersed repeats), etc. As repetições estão equitativamente distribuídas pelos genomas e espécies e constituem uma fracção muito considerável de todo o ADN dos organismos. As repetições podem ser exactas ou aproximadas, assumindo estas últimas, claramente, mais importância na composição da informação biológica.
2.3.1.1. Repetições não adjacentes – elementos transponíveis
A maioria das repetições não adjacentes são originadas por um processo de transposição, grosso modo, são segmentos de ADN que são replicados noutro local da sequência. Esses segmentos denominam-se de transposons.
Os transposons podem ser de dois tipos, os transposons do ADN e os retrotransposons. Estes últimos são os mais abundantes, e derivam de cópias de ARN transcritas reversamente em ADN, que são inseridas no genoma numa outra determinada localização, estes segmentos são maioritariamente inactivos. Se estes elementos concorrem para a plasticidade do ADN, também podem ser responsáveis pelo surgimento de doenças quando interferem com a normal actividade génica. Podem ser de dois tipos quanto à forma como se propagam, designando-se por replicativos os que acumulam várias cópias, como é o caso dos retrotransposons, e por não-replicativos, os que se movem sem disseminações, como é o caso dos transposons, a esquemática usada está descrita na Figura 2.8.
A. Transposons que se movem por transposição replicativa são duplicados no processo de salto, num mecanismo de copiar-e-colar.
B. Transposons não-replicativos movem-se por um mecanismo recorta e cola. Nenhuma cópia é feita.
Figura 2.8 – Transposons replicativos (A) e não-replicativos (B).
Os elementos retrotransponíveis são categorizados em autónomos e não-autónomos no que concerne à auto-suficiência para a mobilidade. Dos elementos autónomos contam- se os LTRs (Long Terminal Repeats) e os não-LTRs, estes últimos são vulgarmente representados pelos LINEs (Long Interspersed Nuclear Elements). Os LINEs são longas repetições não adjacentes e compreendem cerca de 21% do genoma humano, os SINEs (Short Interspersed Nuclear Elements), que correspondem aos elementos não- autónomos, constituem-se em curtas repetições não adjacentes, tipicamente com um número de bases inferior a 500. Os ALUs estão incluídos nos SINEs, estes elementos existem em número elevado no genoma humano, mais de um milhão e perfazem mais de 11% da sua composição. Um maior detalhe na função destes elementos repetitivos está fora do âmbito deste trabalho, contudo apontam-se alguns trabalhos na área [51-
53]. Nos mamíferos, as repetições dispersas, representam cerca de uma terço do material genético [54], são obviamente de enorme importância para a compressão da informação.
2.3.1.2. Repetições adjacentes
As repetições em tandem são normalmente associadas a doenças humanas, apresentam importantes relações com a evolução, bem como, interferem decisivamente nos processos de regulação da célula [55]. Este tipo de repetições pode, em certos casos, aparecer com alguma degeneração, ou seja, as unidades repetitivas podem conter eventualmente algum erro relativamente à unidade de referência. As repetições de maior tamanho são denominadas de satélites, variam em tamanho desde os 100kb até 1 Mb. No genoma humano, um exemplo bem conhecido é o ADN alphoid, que se localiza perto do centrómero e se caracteriza por repetições sucessivas de 171 bases, perfazendo em cada cromossoma cerca de 3 a 5% da sua composição genómica.
As repetições adjacentes curtas são denominadas de minisatélites (na ordem das kb) e as mínimas (normalmente 1-5 pb) são denominadas de microsatélites. Os microsatélites raramente excedem as centenas de repetições, a família de repetições mais comum deste tipo são as de duas bases, entre as quais o dinucleótido CA prevalece em frequência. O termo satélite parece aqui estranhamente aplicado, mas obviamente tem a sua explicação, que assenta nos resultados do processo de centrifugação de ADN, onde os fragmentos repetitivos adjacentes tendiam a formar uma espécie de banda satélite e por isso receberam esse nome. Como exemplo, refira-se que os telómeros são mormente constituídos por pequenas repetições sucessivas das bases GGGTTA. Para um maior desenvolvimento neste tipo de repetições genómicas, sobretudo ao nível da sua pesquisa por meios bioinformáticos, sugerem-se os seguintes trabalhos [56-59].
2.3.1.3. Palindromas
Nas sequências de ADN, os símbolos ‘A’ e ‘T’ são complementares um do outro, de igual modo, ‘G’ e ‘C’ são complementares um do outro. Uma string yn
complementar de x1n se xi e yn+1-i são complementares mútuos para 1 ≤ i ≤ n. Ao par de strings y1n e x1n dá-se o nome de palindroma [60]. Basicamente, trata-se de repetições de sub-sequências invertidas e com as bases representadas pelas correspondentes complementares. Por exemplo, a reversa complementar de “AAACGT” é “ACGTTT”.
Existem exemplos curiosos de sequências de ADN com forte presença de palindromas. Para mencionar alguns, refira-se o caso do cromossoma III de uma levedura denominado por “CHMPXX”, composto por 121024 símbolos, que apresenta um palindroma de 10000 bases. Outro caso relevante acontece num gene de um vírus denominado de “VACCG”, com uma extensão de 191737 símbolos, que contém um palindroma de 8000 símbolos. Estes casos, pela sua representatividade, fazem parte de bases de dados usadas em benchmarking de algoritmos de compressão e análise entropia de sequências de ADN. Estas redundâncias constituem, juntamente com as demais repetições já apresentadas nesta secção, recursos importantes na compressão da informação genómica.
A complexa modularidade da organização dos genomas será, por muito tempo, um tema em aberto mas, nessa modularidade as regiões repetitivas desempenham certamente um papel fundamental [61].