PART 2: MATERIALS I MÈTODES
3. Mètodes analítics
3.3 Alineament
Per a l’alineament múltiple es trià la versió online del programa MAFFT 6 (de
l’anglès Multiple Alignment with Fast Fourier Transform) (Katoh et al., 2002, 2005, 2009;
Katoh & Toh, 2010; http:/align.bmr.kyushuu.ac.jp/jp/mafft/online/server/) atès que és un dels mètodes d’alineament múltiple (o MSA de l’anglès Multiple Sequence Alignment) més ràpids i precisos dels que existeixen actualment (Grasso & Lee, 2004;
Golubchik et al., 2007). Aquest mètode incorpora una sèrie d’algorismes basats en FFT (de l’anglès fast Fourier transform), el qual permet una ràpida detecció dels segments homòlegs entre les diferents seqüències. Per a l’alineament de tots els marcadors a excepció dels ribosomals (rrnL i SSU) s’utilitzà el procés d’alineament progressiu (Feng
& Doolittle, 1987) incorporat a MAFFT. Aquest mètode a MAFFT comprèn tres etapes (Katoh et al., 2005):
i. Alineament progressiu-1: MAFFT construeix primer de tot un alineament a parells i alhora elabora un arbre guia a partir de la matriu de distancies mitjançant el mètode UPGMA (de l’anglès Unweighted Pair Group Method with Arithmetic Mean) (Sneath & Sokal, 1973). Les seqüències es van alineant progressivament (Feng &
Doolittle, 1987) seguint l’ordre establert pel patró de ramificació de l’arbre guia. Aquest procés es refereix com a FFT-NS-1.
ii. Alineament progressiu-2: es calcula per segona vegada una matriu de distàncies basada en la informació obtinguda del primer alineament FFT-NS-1 (Edgar, 2004), i es torna a construir un alineament progressiu en base al nou arbre guia generat a partir de la nova matriu de distàncies. Aquest mètode es refereix com a FFT-NS-2.
iii. Refinament interactiu: l’alineament FFT-NS-2 és millorat pel mètode de refinament interactiu (Gotoh, 1996) que maximitza el valor WSP (de l’anglès weighted sum of pairs). Aquest procés es refereix com a FFT-NS-i.
No obstant això, aquest mètode de refinament interactiu no té en compte la possibilitat que les seqüències no siguin globalment alineables, com succeeix amb els gens no codificants. L’ús de RNAs funcionals no codificants (ncRNAs) ha portat al desenvolupament de nous algorismes de refinament que sí tenen en compte l’estructura secundària a l’hora de construir un MSA.
A MAFFT v. 6 (Katoh et al., 2008; 2009) s’inclou una nova estratègia
d’alineament anomenada Q-INS-i
(http://mafft.cbrc.jp/alignment/software/source66.html; Katoh & Toh, 2008; Letsch et al., 2010), una eina que incorpora la informació estructural de les seqüències en forma de probabilitat d’aparellament de bases calculada per l’algorisme de McCaskill o el de CONTRAfold (McCaskill, 1990 & Do, et al., 2006). A diversos estudis de marcadors ribosomals s’ha comprovat que la implementació d’aquests algorismes produeixen millors resultats que no pas els basats exclusivament amb mètodes de seqüències, i a més, presenten un bon rati d’exactitud/temps computacional (Edgar & Batzoglou, 2006; Letsch et al., 2010; Kornobis et al., 2011; veure resultats presentats a http://mafft.cbrc.jp/alignment/software/eval/rna.html). Cal dir emperò, que tot i augmentar l’eficàcia i fiabilitat dels alineaments, l’ús d’aquests algorismes no és suficient en casos d’alineament entre gens estructurals altament divergents. Vist que tant els gens estructurals com els ribosomals presenten zones altament conservades (stems) i per tant fàcilment alineables, mentre que d’altres són molt divergents i es troben replets d’indels i multiple hits (loops), s’ha vist que és recomanable eliminar les regions extremadament divergents de l’alineament (Swofford et al., 1996; Lee, 2001;
Castresana, 2000). En altres estudis s’ha demostrat que l’eliminació d’aquestes regions problemàtiques permet millorar els arbres filogenètics tot i la pèrdua d’informació ja que augmenta notablement el senyal filogenètic (Talavera & Castresana, 2007).
3.3.1. Alineament dels PCGs
La similitud o identitat (hipòtesi primària d’homologia) entre PCGs s’identifica millor a nivell aminoacídic atès que aquestes evolucionen més lentament perquè la majoria de substitucions nucleotídiques són sinònimes. És a dir, no es produeix canvi aminoacídic ja que la majoria de substitucions tenen lloc a les terceres posicions del triplets (codons), i com el codi genètic és degenerat diferents triplets codifiquen pel mateix aminoàcid. Per aquest motiu, els alineaments que tenen en compte la seqüència aminoacídica dels PCGs permeten comparar seqüències més divergents. A més a més, aminoàcids diferents tot i que amb característiques fisicoquímiques similars, són tractats com a quasi-identitats. Un altre gran avantatge d’aquests alineaments d'aminoàcids (per triplets) és que eviten la introducció d’insercions i delecions dins un codó, respectant així la pauta de lectura. Cadascun dels PCGs dels mitogenomes
(MPCGs) més el gen nuclear H3 van alinear-se d’acord amb les seves seqüències aminoacídiques a partir del programa TranslatorX (Abascal et al., 2010; disponible a http://translatorx.co.uk; Katoh & Toh, 2008). Aquest programa realitza un retro-alineament segons sigui la traducció aminoacídica. TranslatorX permet l’ús de diversos programes d’alineament múltiple entre els quals es va triar MAFFT 6 per la realització d’aquesta anàlisi.
Finalment es revisaren manualment tots els alineaments amb el programa MESQUITE© v. 2.5. (Madison & Madison, 2008 http://mesquiteproject.org.) per descartar la presència de pseudogens, codons d'aturada, substitucions no sinònimes poc freqüents i altres errades en l’edició.
Els 13 MPCGs corresponents als mitogenomes sencers es van concatenar emprant el programa Phyutility v.2.2. (Smith & Dunn, 2008) fins a obtenir un alineament únic de 11,142 caràcters per a la matriu que contenia els grups externs i 11,076 caràcters per a la matriu amb els 21 mitogenomes sense els grups externs, equivalent aproximadament a un 77% del mitogenoma.
3.3.2. Alineament dels gens ribosomals (rrnL i SSU)
Per a l’alineament del gen mitocondrial rrnL i del gen nuclear SSU s’utilitzà l’estratègia Q-INS-i que considera les estructures secundàries presents als ncRNA implementada a MAFFT 6 (Katoh & Toh, 2008). Un cop obtingut l’alineament, les regions hipervariables i blocs ambiguament alineats es varen eliminar amb el programa Gblocks v. 0.91b (Castresana, 2000) per estimar el seu impacte sobre la filogènia. Aquest programa elimina aquelles posicions altament divergents i per tant, probablement mal alineades. S’empraren els paràmetres més relaxats i com a resultat s’obtingueren 49 blocs que contenien un màxim de 2,159 caràcters (abans 2,882) per seqüència.