• No results found

PART 2: MATERIALS I MÈTODES

3. Mètodes analítics

3.9 Metodologia de reconstrucció filogenètica

3.9.2. Inferència filogenètica

3.9.2.1. Anàlisi del set de dades per a

longipes (Capítol I)

S’avaluaren diferents esquemes de particions pel set de dades d'espècimens de M. longipes. Les diferents estratègies de partició i anàlisis foren les següents:

- Tots els marcadors (cox1, cob, rrnL i H3):

o Cap partició: totes les posicions analitzades com una sola partició.

o Dues particions: gens mitocondrials (cox1 + cob + rrnL) vs. nuclears (H3).

o Tres particions: gens mitocondrials codificants per proteïna (cox1 + cob) vs. ribosomal mitocondrial rrnL vs. nuclears (H3).

o Quatre particions: per gen (cob/cox1/rrnL/H3).

o Quatre particions: primeres + segones posicions dels codons dels gens mitocondrials codificants per proteïna (cox1+cob) vs. terceres posicions dels codons d'aquest gens (cox1+cob) vs. mitocondrial ribosomal rrnL vs. H3.

o Cinc particions: primeres posicions dels codons dels gens mitocondrials codificants per proteïna vs. segones posicions codons vs. terceres posicions codons vs. rrnL vs. H3.

- El set de dades complet pels espècimens de M. longipes per a cox1 (162 + 3 grups externs):

o Cap partició: totes les posicions analitzades com una sola.

o Dues particions: primeres + segones posicions dels codons vs.

terceres posicions dels codons.

o Tres particions per posició de codó: primeres vs. segones vs. terceres.

Les diferents estratègies de particionament de les dades es comparen segons el valor de BIC a partir dels valors de versemblança obtinguts amb l’anàlisi de ML,

realitzades amb el programa de RAxML v.7.2.4. Aquest programa implementa un algorisme ràpid dissenyat per cercar l’arbre amb el millor valor de versemblança en el qual es va fer una anàlisi de bootstrap (anàlisi de remostreig) (Felsenstein, 1985) no paramètrica amb 1,000 rèpliques. Addicionalment, a partir dels valors obtingut amb MrBayes v. 3.1.2. també es calcularen els valors de factor de Bayes (Bayer Factors, d’hora endavant BFs) (Kass & Raftery, 1995) amb el programa Tracer v. 1.4 (Rambaut &

Drummond, 2007; http://tree.bio.ed.ac.uk/software/tracer/) per comprovar quin era el millor esquema de particionament.

El BF quantifica i compara el suport relatiu de dues hipòtesis o models (M0 i M1) segons les dades observades (Y), i per a models no niats es calcula com la ràtio de les versemblances marginals (marginal likelihood) de les hipòtesis f(Y|Mi):

!!"=   ! !!

!!!

El BF és l’anàleg bayesià al LRT (veure apartat 3.8.1.), tot i que té l’avantatge que no necessita que els models siguin niats i la versemblança marginal penalitza la sobre-parametrització. A diferència de BIC i de la resta de metodologies tradicionals de selecció de models com AIC i LRT, aquesta mesura té en compte els priors que s’han emprat a l’anàlisi bayesiana (Xie et al., 2010). Kass & Raftery (1995) introdueixen diferents graduacions per avaluar el valor de BF com a evidència per refutar M0, on es veu que a valors superiors a 20 el suport per refutar M0 davant M1 és molt elevat (Taula 2.4). La versemblança marginal d’un model és la mitjana ponderada de la versemblança de tots els valors dels paràmetres; és a dir és la mesura de l’ajust mig del model a les dades. El càlcul d’aquesta versemblança marginal és computacionalment inabordable, pel que es fa una aproximació emprant cadenes de Markov Monte Carlo (mcmc). Existeixen diverses maneres de calcular les versemblances marginals, entre les quals s’hi troba la que fins ara ha sigut la més emprada, el mètode de la mitjana harmònica (harmonic mean method, HM) (Newton & Raftery, 1994). Això no obstant, el HM ha sigut durament criticat els darrers anys i fins i tot s’ha comprovat que pot ésser inapropiat atès que sobreestima les versemblances marginals, no penalitza prou els models amb més paràmetres que no incrementen notablement l’ajust de les dades al model, i presenta una variància extremadament alta o fins i tot infinita (Lartillot &

Philippe, 2006; Lewis et al., 2010; Fan et al., 2011; Xie et al., 2011; Baele et al., 2012).

Malauradament, ara per ara el HM es l’únic mètode pel càlcul de les versemblances marginals implementat al programa Tracer v. 1.4. i v.1.5., que són les que s’han emprat per aquesta tesi.

Per a les anàlisis de IB es feren dues anàlisis independents per a cada cerca bayesiana amb els valors dels priors per defecte a MrBayes v.3.1.2. S’utilitzaren quatre cadenes MCMC (tres cadenes calentes i una freda) per a cinc milions de generacions, i es mostrejà a intervals de 1000 generacions. Per a cada partició s’implementà el model evolutiu més adequat segons BIC calculat a jModelTest v.0.1.1. Tots els paràmetres es deslligaren entre particions (unlinked) i es deixà que cada partició variés amb la seva mateixa taxa. El nombre de generacions a descartar abans d’haver-hi convergència, el que es coneix com el valor del paràmetre de burn-in (Huelsenbeck & Ronquist, 2001) s’estimà amb l’ordre sump a MrBayes, el qual construeix una gràfica del valor de

versemblança respecte al nombre de generacions. Per estimar la convergència de les anàlisis independents i la mida efectiva de la mostra (ESS, de l’anglès effective sample size) s’emprà el programa Tracer v. 1.4. D’aquesta manera es comprovà que el valor de ESS fos major de 200 per a totes les anàlisis -Drummond i Rambaut (2007) suggereixen un mínim de 100 en valor de ESS i un òptim per damunt 200- i s’eliminaren aproximadament el 10% de les generacions mostrejades per falta de convergència. La convergència i estacionalitat de la topologia obtinguda a les dues anàlisis independents es testà a partir del programa AWTY (de l’anglès: Are We There Yet?) (Nylander et al., 2008) amb les ordres slide, cumulative i compare. AWTY pot estimar la convergència i estacionalitat de les biparticions al llarg d’una anàlisi (slide & cumulative command) o bé pot comparar dues anàlisis independents (compare command). L’ordre slide testa si les sub-mostres preses de la cadena de mostreig corresponen a arbres en proporció a llurs probabilitats posteriors. És a dir, si es divideix la cadena en X sub-mostres/segments i es calculen les freqüències dels clades-nodes, aquestes haurien de ser similars si s’hagués arribat a l’estacionalitat dels paràmetres. L’ordre cummulative fa el mateix

Taula 2.4. Interpretació dels valors de factors de Bayes (BF)

0 a 0.5 0 a 2 1 a 3 no val més que una simple

menció

0.5 a 1 2 a 6 3 a 20 positiva

1-­2 6 a 10 20 a 150 forta

>2 >10 >150 molt forta

Log (BF10)** 2 Ln (BF10)* BF10* Evidència en contra de M0

* Kass & Raftery, 1995.

** Jeffreys, 1935.

però calcula les freqüències acumulatives de les divisions (splits) per a cada una de les simulacions. És a dir, és l’equivalent a aturar periòdicament la cadena de MCMC i calcular les freqüències dels splits en aquell punt. Tot i així l’ús de solament l’ordre slide i cummulative no són suficients per descartar falta de convergència ja que es podria observar un resultat positiu en el cas de que l’anàlisi hagués explorat malament l’espai d’arbres hi hagués caigut en un òptim local. Per aquest motiu es va fer servir també l’ordre compare que permet comparar les freqüències de les probabilitats posteriors de les bifurcacions entre les diferents anàlisis; on en el cas de haver-hi convergència s’hi hauria d’observar una alta correlació. Es van prendre les opcions per defecte del programa AWTY per calcular la convergència i estacionalitat de les diferents anàlisis:

en el cas de l’ordre slide es calcularen 10 segments-finestres de sub-mostres, fent un burn-in previ del 10% i es mostraren els 20 splits més variables. En el cas de l’ordre cumulative es calcularen 10 vegades (= increments de 10) els 20 splits més variables. Un cop realitzat el burn-in, els arbres obtinguts a partir de les dues anàlisis es combinaren per obtenir en una topologia única consens (per la regla de la majoria) emprant l’ordre sumt de MrBayes, i es prengueren les freqüències de les biparticions (= nodes) de l’arbre consens com a valors de suport de probabilitat posterior (Huelsenbeck & Ronquist, 2001).

Finalment, es dugué a terme la reconstrucció de l’estat dels caràcters quant a habitat dels nodes interns (aigües dolces vs. aigües salobres). Uns dels mètodes més emprats per a la reconstrucció d’estats de caràcters ancestrals mitjançant inferència filogenètica ha sigut el de màxima parsimònia (Maddison & Maddison, 1989). Per a la reconstrucció s’emprà el programa Mesquite v. 2.74 (Maddison & Maddison, 2009). La proposta filogenètica sobre la que es realitzà la reconstrucció està presa de l’arbre bayesià de MrBayes v. 3.1.2. amb el set de dades complet per cox1 i la distribució de l’habitat observat entre les poblacions mostrejades per minimitzar el nombre de passes de canvi d’hàbitat.

3.9.2.1.1. Congruència entre les diferents particions

La congruència entre els diferents marcadors emprats s'estimà mitjançant el test de Partitioned Bremer Support (PBS) (Baker et al., 1998) implementat al programa Treerot v. 3.0 (Sorenson & Franzosa, 2007) dins PAUP v. 4b10 (Phylogenetic analysis using Parsimony*, Sunderland, MA, USA) (Swofford, 2002). S'usaren els paràmetres per

defecte, excepte que la cerca heurística es realitzà amb 200 rèpliques, guardant 25 arbres per rèplica, per garantir que es trobava l’arbre més curt.

L’índex de decaïment o el valor de suport de Bremer (Bremer, 1988) s’empra per mesurar el suport donat a un node concret dins un arbre filogenètic. Aquest valor es calcula en base a la diferència en la longitud entre els arbres més curts que inclouen un grup i els arbres més curts que no l’inclouen (és a dir, el nombre de passes extra que es requereixen per col·lapsar un grup), mentre que el suport total seria la suma de tots els índex de decaïment. El suport de Bremer particionat (Partitioned Bremer Support, PBS) (Baker et al., 1998) calcula la quantitat de suport aportat per a cadascuna de les particions/marcadors a l’índex de decaïment per a cada node de la filogènia resultant de l’anàlisi combinada. Si la partició suporta la relació representada per un node a un arbre combinat, el valor de PBS resultarà ser positiu. Si ocorre el contrari, si la partició suporta una relació alternativa, el valor de PBS serà negatiu. El particionament de les dades és una manera altament escaient d’explorar la incongruència de senyal entre caràcters de diferents marcadors (Brower, 2006).

3.9.2.2. Anàlisi del set de dades dels mitogenomes (Capítol