PART 2: MATERIALS I MÈTODES
3. Mètodes analítics
3.9 Metodologia de reconstrucció filogenètica
3.9.2. Inferència filogenètica
3.9.2.2. Anàlisi del set de dades dels
Per resoldre la filogènia de la família Metacrangonyctidae s’empraren els MPCGs de tots els 23 mitogenomes amplificats (dos grups externs i 21 metacrangonyctids). S’exploraren diferents esquemes de partició per Inferència Bayesiana i Màxima Versemblança per tal de poder destriar la millor manera de particionar les dades. Aquests esquemes foren els següents:
- Tots els 13 PCGs:
o Totes les posicions dels codons analitzades com una sola partició;
o Dues particions: primeres + segones vs. terceres posicions dels codons;
o Tres particions: primeres vs. segones vs. terceres posicions dels codons;
o Segons el model per codons (Goldman & Yang, 1994);
o 13 particions: per gen.
- Tots els 13 MPCGs més el gen nuclear SSU:
o Quatre particions: primeres vs. segones vs. terceres posicions dels codons vs. SSU;
o Segons el model per codons (Goldman & Yang, 1994) vs. SSU.
Per a les anàlisis bayesianes s’emprà MrBayes v. 3.1.2. implementat en una targeta gràfica de Tesla c2050 que feia servir la llibreria Beagle (Suchard & Rambaut, 2009), que redueix notablement el temps computacional, especialment en el cas del model de codons (fins a 30-50 vegades més ràpid). Es corregueren dues anàlisis independents per a cada cerca bayesiana començant amb els valors dels priors per defecte i arbres a l’atzar. S’utilitzaren quatre cadenes de MCMC (tres cadenes calentes i una freda) durant cinc milions de generacions i es mostrejà a intervals de 1000 generacions a partir d’arbres a l’atzar. Per a cada partició de seqüències s’implementà el model evolutiu més adequat segons els valors de BIC calculats amb l’script de perl MrAIC (Burnham & Anderson, 2002; Nylander, 2004).
Tots els paràmetres es deslligaren entre particions i també es deixaren variar les taxes de substitució nucleotídica lliurament entre aquestes. El valor del paràmetre de burn-in, la convergència i estacionalitat dels paràmetres i diferents topologies es determinaren amb els programes Tracer 1.5 i AWTY (veure apartat 3.8.2.1). Un cop realitzat el burn-in, els arbres restants obtinguts a les dues anàlisis es combinaren per obtenir una sol arbre consens de regla de la majoria derivat dels arbres visitats i es prengueren les freqüències dels nodes com a valors de suport de probabilitat posterior (pp) (Huelsenbeck & Ronquist, 2001). Les anàlisis que es realitzaren pel model de partició per codons de Goldman i Yang (1994) es corregueren de 20 a 30 milions de generacions per assegurar-se tenir un valor suficientment alt de ESS un cop haguessin convergit tots els paràmetres. En aquest cas es va aplicar un burn-in del 75%.
Pel set de dades dels 13 MPCGs es realitzà una segona anàlisi bayesiana amb el programa PhyloBayes v.3.3 (Lartillot et al., 2009) amb el set de dades dels MPGCs traduïts a proteïnes. El principal avantatge d'aquest programa és que les particions no s'han de definir a priori. Es diferencia principalment per tenir el seu propi model
probabilístic de treball, anomenat CAT i per resultar particularment útil per alineaments grans de múltiples gens (>1000 posicions) (Lartillot & Philippe, 2004).
Talavera i Vila (2011) han estudiat com s’ajusta aquest model CAT en el cas d’emprar mitogenomes complets per reconstruir la filogènia a insectes. Aquests autors suggereixen que CAT és el model que millor s’ajusta a alineaments amb gens que presenten elevades taxes de substitució que cerquen esclarir la filogènia amb esdeveniments de divergència molt profunds, i a més, evita satisfactòriament el problema de l’atracció de les branques llargues o LBA (de l’anglès “long-branch attraction). De fet, CAT és una barreja de models que agrupa en infinites categories (K) les diferents posicions (nucleotídiques o aminoacídiques) que tenen un taxa i composició semblant. En aquest estudi les taxes d’intercanvi global s’inferiren a partir de les dades, tal com es recomana fer en sets de dades superiors a 1000 posicions (Lartillot et al., 2009). Es realitzaren tres anàlisis independents i es deixaren córrer fins a la seva convergència; o sia, fins que el valor de la freqüència màxima de separació (maximum split frequency) fou menor de 0.1 i un valor d’ ESS major de 100 (Lartillot et al., 2009).
Per a les anàlisis de Màxima Versemblança s’utilitzà el programa Garli v. 2.0.
que com ja s’ha esmentat permet aplicar un model de substitució diferent a cada una de les particions incloent el model del “nucl model” per codons de Goldman i Yang (1994). Pel set de dades dels 13 MPCG i el gen nuclear SSU es realitzà una anàlisi amb RAxML v. 7.0.4. en el qual es va realitzar una anàlisi ràpida de bootstrap (Felsenstein, 1985) no paramètrica amb 1,000 rèpliques.
Un cop obtinguts els resultats s’observà que els grups externs utilitzats per aquest estudi es trobaven molt allunyats de la família Metacrangonyctidae i vist que aquests grup és monofilètic, es repetiren les anàlisis sense aquests dos mitogenomes per comprovar que la presència dels grups externs no afectava a les relacions filogenètiques de l’ingroup. Per finalitzar es trià quin era el millor model de particionament segons el millor BFs calculat per Tracer v. 1.5. a partir dels resultats de MrBayes v. 3.1.2.; o segons el valor de BIC calculat a partir dels valors de versemblança obtinguts amb Garli v. 2.0. (veure apartat 3.8.1.).
La congruència entre els diferents marcadors emprats (MPCGs vs. SSU i cadascun dels MPCGs per separat) s’estimà mitjançant el test de PBS (Partitioned Bremer
Support) (apartat 3.8.2.1.1.).
3.9.2.2.1. Comparació entre topologies alternatives
Les filogènies que són inferides a partir de particions o sets de dades distints en ocasions poden mostrar topologies diferents tot i tractar-se del mateix grup d’organismes (Rodrigo et al., 1993). La majoria de sistemàtics consideren que les diferents particions de dades poden combinar-se solament quan es demostra que no són significativament incongruents entre elles. Per aquest motiu es requereixen de certs tests estadístics per avaluar la incongruència taxonòmica entre les diferents particions (Kishino & Hasegawa, 1989; Hipp et al., 2004). Per determinar si topologies alternatives obtingudes amb diferents sets de dades (només els MPCGs versus MPCGs-SSU) eren significativament diferents es realitzaren anàlisis preliminars amb RAxML 7.2.4.
(Stamatakis, 2006) i es testaren les dues topologies alternatives amb els tests de Shimodaira-Hasegawa (1999) (d’hora endavant, test de S-H) i el test dels “pesos de versemblança esperats” (d’hora endavant ELW, de l’anglès Expected Likelihood Weights) (Strimmer & Rambaut, 2002). El test de S-H ha substituït a l’anterior test de Kishino-Hasewawa (1989) ja que s’ha observat que aquest pot induir a errors al rebutjar falsament la hipòtesi nul·la (Shimodaira & Hasegawa, 1999; Goldman, 2000). El test de S-H empra un re-mostreig tipus bootstrap no paramètric (recerca RELL: Resampling Estimated Log Likelihoods), i corregeix aquells valors crítics realitzant múltiples comparacions el que permet saber si es pot rebutjar la hipòtesi nul·la (tots els arbres considerats s’ajusten igualment a les dades), i ha sigut dissenyat per emprar-se baix el criteri d’optimització de ML. L’estadístic del test de S-H (δ) és la diferència entre el millor arbre amb màxima versemblança i qualsevol altre que es compara:
δT= lnLML- lnLT
Les hipòtesis que es volen testar són:
H0= tots els arbres considerats s’ajusten igualment a les dades H1= qualcun dels arbres o tots ells no s’ajusten prou bé a les dades
Això no obstant, Strimmer i Rambaut (2002) demostren que el test de S-H pot resultar en ocasions massa conservatiu, pel que suggereixen un nou test estadístic, el test ELW, per testar diferents topologies i construir intervals de confiança per
topologies obtingudes a partir d’anàlisis de ML. Aquesta prova és la proporció de la versemblança de l’arbre a comparar sobre la suma de les versemblances de cadascun dels arbres candidats. Els arbres testats són llavors ordenats segons el seu “pes” i s’inclouen dins l’interval de confiança fins que la suma dels seus “pesos” sigui igual o lleugerament major que el nivell de confiança. Aquells arbres que presentin un major
“pes” són el més propensos per a ser els vertaders i per tant es trobaran a l’interval de confiança.
3.9.2.2.2. Presència de politomies a les filogènies
Són moltes les ocasions en què estudis dedicats a la reconstrucció filogenètica de diferents tàxons són incapaços de resoldre les relacions filogenètiques satisfactòriament per topar-se a la topologia de l’arbre amb el que es coneix vulgarment com a “espina de peix”. No obstant això, no tots els casos de relacions politòmiques són resultats de inferències incongruents o deficients, el que es coneix com a politomies falses (soft polytomies) (Maddison, 1989). S’ha observat que la resolució de nodes precedits per branques curtes (nodes interns) pot ésser un procés ardu fins i tot tenint gran quantitat de dades (Tajima, 1983; Wiens et al., 2008).
Teòricament, la presència de politomies veritables (= hard polytomies) a un arbre filogenètic pot ser resultat d’un esdeveniment de ràpida especiació-radiació on branques internes extremadament curtes són seguides de branques molt llargues (Walsh, et al., 1999; Braby et al., 2005; Shavit et al., 2007). Aquest patró de politomia veritable s'observa quan una diversificació tan ràpida no permet la fixació de substitucions nucleotídiques informatives suficients (branques curtes) i cal diferenciar-les de diferenciar-les politomies falses, que provenen de la incongruència filogenètica. A més, es podria esperar un resultat similar en el cas d’esdeveniments vicariants on queden aïllats al mateix temps diversos llinatges.
Hi ha diversos estudis que suggereixen que les probabilitats posteriors inferides a les anàlisis bayesianes poden veure’s artificialment augmentades, produint valors de confiança “inflats” i alts valors incorrectes de pp a nodes incerts o inestables, especialment quan l’arbre vertader presenta longitud de branques internes iguals o properes a zero. El problema sembla residir en el fet que MrBayes considera sempre els arbres com a binaris, és a dir, força als nodes a la dicotomia. Diversos estudis de simulació que han emprat arbres politòmics de quatre espècies (tres possibles arbres no
arrelats) demostraren que els valors de pp obtinguts per MrBayes eren extremadament alts (Suzuki et al., 2002; Cummings et al., 2003; Yang & Rannala, 2005). El problema de no obtenir uns valors de pp pels tres arbres binaris possibles iguals a (⅓, ⅓, ⅓), es coneix amb el nom de star-tree paradox (Lewis et al., 2005). El problema principal, emperò, resideix no en com s’allunyen els valors de pp inferits del que serien els valors reals sinó més bé, en la resolució de nodes inexistents quant de fet es manca d’informació o senyal filogenètica suficient per ésser resolts (Yang, 2007). Lewis i col·labroadors (2005) suggeriren una modificació a l’algorisme de MCMC, implementada a Phycas v.1.2.0. (http://www.phycas.org ; Lewis et al., 2005) per tal de solucionar en aquest problema. D’aquesta manera, el nou algorisme (reversible-jump MCMC; Green 1995) permet que topologies menys resoltes puguin competir amb hipòtesis on els arbres són totalment resolts o bé són politomies completes (star tree).
Per aquest motiu es testà amb Phycas v. 1.2.0. la presència de politomies veritables ja que aquest programa explora la probabilitat de trobar politomies. Com ja s’ha esmentat anteriorment, existeixen diverses metodologies per estimar les versemblances marginals (veure apartat 3.9.2.1). Phycas v.1.2.0. ofereix diferents metodologies alternatives al tant criticat HM (Lartillot & Philippe, 2006), entre les quals s’hi troba el mètode de l’stepping stone (SS) (Xie et al., 2011; Fan et al., 2011), que té una sèrie d’avantatges en comparació del mètode de la mitjana harmònica: dóna millors estimadors de les versemblances marginals i ofereix una major precisió a l’hora de seleccionar un model (Baele et al., 2012). El mètode de SS estima directament les versemblances marginals a diferència del mètode de HM, que estima el rati d’aquestes (Xie et al., 2011). Phycas permet la implementació d’un “prior de politomia” (de l’anglès politomy prior) que permet la relaxació de la condició de dicotomia generalment assumida a les topologies dels arbres. Per aquesta anàlisi es testaren els priors de politomia e1 o e2, el que implica que a un arbre totalment resolt ha de tenir una versemblança d’una o dues unitats de versemblança més per ser afavorida sobre un arbre politòmic (per arbre politòmic s’entén aquell que té al manco un node no resolt).
Es corregueren dues anàlisis independents entre elles de 50,000 cicles (corresponent aprox. a cinc milions de generacions a MrBayes) amb una cadena freda i una calenta i mostrejant cada cinc cicles. Es va comparar emprant BFs (estimat pel mètode de
“stepping stone method & not marginal likelihood) la millor fitness d’un model sense politomies amb la d’un model que sí les permetés.
Addicionalment, s’emprà el programa DensiTree v.2.0.1. (Bouckaert, 2010) per
visualitzar els múltiples arbres generats per MrBayes. Aquest programa permet dibuixar tots els arbres mostrejats a l’anàlisi bayesiana. Com a resultat, aquelles “àrees”
on molts dels arbres coincideixen pel que fa a la topologia (topologia consens) i/o longitud de branques es mostren com a zones d’intensa coloració, mentre que les àrees amb poc consens apareixen borroses i tènues de coloració.