Chapter V: Conclusions
5.3. Suggestions for further research
A genotipagem de SNPs via tecnologia GoldenGate apresentou um elevado índice de sucesso na obtenção de genótipos de alta qualidade, dentro dos filtros de qualidade utilizados nesse trabalho (Call rate = 0,85), para todas as 6 espécies avaliadas, demonstrando que essa metodologia pode ser utilizada com sucesso para a genotipagem de SNPs em diferentes espécies do gênero Eucalyptus. Grattapaglia et al. (2011) encontrou uma taxa de sucesso de genotipagem de 93% para 288 SNPs de mais alta qualidade in silico ao analisar nove espécies de Eucalyptus.
O principal fator verificado por Grattapaglia et al. (2011) que influenciou a taxa de sucesso da genotipagem utilizando a metodologia GoldenGate é a seqüência flanqueante ao SNP alvo, sequencia essa que pode conter diferentes polimorfismos dentro e principalmente entre espécies do gênero o que reduz a qualidade do ensaio de genotipagem. Valores elevados de sucesso de genotipagem via GoldenGate também foram verificados para cevada (90%)
(ROSTOKS et al., 2006) e para soja (89%) (HYTEN et al., 2008). Já em Pinus taeda foi verificado uma menor taxa de conversão de genótipos de alta qualidade (67%) em uma análise de 384 SNPs para uma progênie de 48 indivíduos (ECKERT et al., 2009).
Entre os 654 SNPs que passaram pelo filtro de qualidade, foi observado um elevado número de SNPs monomórficos nas seis espécies de Eucalyptus, variando de 273 em E. grandis a 508 em E. dunnii. Como esperado, a maior taxa de SNPs polimórficos (58,2%) foi verificado na espécie E. grandis, devido ao processo de busca e mineração para o desenvolvimento dos SNPs ter sido realizado originalmente utilizando predominantemente (96%) seqüências dessa espécie (GRATTAPAGLIA et al., 2011). A segunda maior taxa de polimorfismo (55,9%) foi verificada para E. camaldulensis, fato que corrobora a alta diversidade nucleotídica presente nessa espécie, estimada via re-sequenciamento sendo estimado em um SNP a cada 16 pares de base (KULHEIM et al., 2009).
Nas seis espécies avaliadas foi verificado que o número de SNPs polimórficos que apresentaram valor de MAF menor que 0,2 foi maior que o número de SNPs que apresentaram valor de MAF acima de 0,2, indicando que a maioria dos SNPs avaliados apresentam valores de freqüências alélicas discrepantes entre os dois alelos. Hyten et al. (2010) verificou uma elevada proporção de SNPs com valores de MAF menor que 0,2 ao avaliar 3049 SNPs em 96 cultivares elite de soja, entretanto encontrou um número similar de SNPs distribuídos nas cinco diferentes classes de MAF ao avaliar o mesmo conjunto de SNPs em 96 variedades diversas. Yan et al. (2010) também encontrou um número similar de SNPs nas cinco diferentes classes de MAF ao avaliar 1362 SNPs em 154 linhagens diversas de milho.
Os resultados mostram que apesar da elevada diversidade nucleotídica presente no gênero
Eucalyptus, elevados índices de conversão de genótipos de alta qualidade foram atingidos para
SNPs via a tecnologia GoldenGate desde que uma adequada seleção de SNPs seja feita in silico. O elevado número de SNPs monomórficos mostra a necessidade de um esforço adicional para o desenvolvimento de conjuntos maiores de SNPs informativos entre as principais espécies de
Eucalyptus. No entanto, essa bateria inicial de 654 SNPs possibilitou a montagem de painéis de
SNPs que apresentaram elevado conteúdo informativo para diferentes aplicações no contexto do melhoramento genético de Eucalyptus.
5.2 AVALIAÇÃO DE PATERNIDADE E IDENTIFICAÇÃO INDIVIDUAL
5.2.1 Avaliação individual para cada espécie 5.2.1.1 Marcadores microssatélites
O uso de marcadores moleculares para avaliação de identidade clonal, diferenciação de cultivares e avaliação de paternidade é uma ferramenta importante em programas de melhoramento genético. Kirst et al. (2005) diferenciaram 192 indivíduos de E. grandis utilizando apenas seis marcadores microssatélites dinucleotídeos, os quais apresentaram uma probabilidade de identidade combinada de 2x10-9 e uma probabilidade de exclusão combinada maior que 99,99%. Jones et al. (2007) diferenciaram 192 indivíduos de uma população artificial de E.
grandis com apenas oito marcadores dinucleotídeos. Poltri et al. (2003) discriminou quase todos
os 46 individuos selecionados para compor um pomar de sementes em uma populaçãode melhoramento de E. dunnii utilizando apenas quatro microssatélites dinucleotídeos.
Resultados semelhantes foram obtidos nesse trabalho para o painel de 24 microssatélites di- e trinucleotídeos, onde foram necessários apenas cinco marcadores para atingir um valor de probabilidade de exclusão combinada acima de 99% para todas as espécies, com exceção de E.
nitens onde foram necessários oito locos. Já para atingir um valor de probabilidade de identidade
combinada menor que 0,01 foram necessários apenas dois marcadores nas seis espécies estudadas.
Os microssatélites com maior motivo de repetição apresentam um menor número de alelos e, consequentemente, um maior número de marcadores torna-se necessário para atingir elevado poder de resolução em análises de paternidade e identificação individual. A bateria de 17 microssatélites tetra-, penta- e hexanucleotídeos avaliada nesse trabalho, atingiu um valor de probabilidade de exclusão combinada acima de 99% apenas na espécie E. camaldulensis (99,46). Já para atingir um valor de probabilidade de identidade combinada menor que 0,01 foram necessários no máximo três marcadores para a espécie E. nitens, o que mostra que esses locos podem ser utilizados com segurança para a identificação genética de árvores do gênero
Faria et al. (2011) encontraram resultados semelhantes para uma bateria de 18 microssatélites tetra-, penta- e hexanucleotídeos analisada em quatro espécies de Eucalyptus, onde o maior valor de probabilidade de exclusão combinada também foi verificada em E.
camaldulensis (99,99%) e valores baixos de probabilidade de identidade combinada foi
verificada para outras quatro espécies do gênero.
Apesar de menos informativos do ponto de vista do polimorfismo e da diversidade alélica, os microssatélites tetra-, penta- e hexanucleotídeos apresentam algumas vantagens no que diz respeito à obtenção dos dados. Embora os métodos padrão de alocação dos alelos brutos em classes discretas de alelos (binning) se mostrem aparentemente eficazes, a automatização desse processo traz consigo uma pequena taxa de erro (AMOS et al., 2007). Um estudo com microssatélites dinucleotídeos reportou uma taxa de erro de 5% no arredondamento dos alelos de 12 locos em 38 amostras (GINOT et al., 1996). Como a análise de microssatélites é realizada geralmente por separação de fragmentos de DNA via eletroforese, os locos que possuem um maior tamanho de motivo de repetição também possuem uma maior distância entre alelos vizinho, e conseqüentemente menor a taxa de erro na declaração dos alelos (WEEKS et al., 2002; HOFFMAN e AMOS, 2005).
Erros de genotipagem em programas de melhoramento podem comprometer o resultado da análise de paternidade e de identidade clonal, traçando falsas relações de vínculo genético ou imprecisão na identificação de perfis genéticos únicos (DNA fingerprinting), tendo como conseqüência perdas em cada ciclo de seleção. Para tentar diminuir a taxa de erros é necessário o desenvolvimento e utilização de painéis com locos microssatélites de maior número de repetição, como já feito em humanos (FRANCEZ et al., 2011). Os painéis compostos por locos com maior motivo de repetição auxilia também na transferência de informação entre diferentes laboratórios com diferentes rotinas de genotipagem (GRATTAPAGLIA e KIRST, 2008).
Comparando as duas baterias de locos utilizadas nesse estudo, os locos originados de motivos de repetição de di- e trinucleotídeos são mais informativos. Todavia, dentro da bateria de locos baseados em repetições de tetra-, penta- e hexanucleotídeos, alguns locos destacam-se por apresentarem elevado conteúdo informativo. Os locos EMBRA1364 e EMBRA813, por exemplo, apresentaram valores de probabilidade de exclusão (PE-1) superiores e valores de probabilidade de identidade inferiores ao valor médio encontrado para os microssatélites di- e trinucleotídeos
em algumas espécies. Esse resultado indica que uma triagem ampla de microssatélites com motivo de repetição entre quatro e seis pares de bases pode levar a descoberta de vários outros locos com elevado conteúdo informativo. Dessa maneira, pode-se combinar em um único painel de microssatélites alto poder informativo e elevada precisão de genotipagem seguindo o que foi feito para seres humanos na definição de uma bateria internacional de microssatélites para aplicações forenses.
Nas duas baterias de microssatélites foi verificada a presença de locos que possuem um elevado valor de probabilidade de exclusão de paternidade somente para espécies de uma única seção taxonômica. É o caso do EMBRA37 com valores elevados para espécies da Seção
Transversaria (E. grandis e E. urophylla) e do EMBRA36 com valores elevados para espécies da
Seção Maidenaria (E. dunnii e E. globulus). Locos com essa característica são interessantes, uma vez que apresentam uma maior diversidade de alelos apenas em determinadas espécies, podendo ser utilizados no monitoramento de programas de melhoramento que envolva apenas uma espécie como é comum com E. globulus em Portugal e Chile ou somente E. grandis na África do Sul.
5.2.1.2 Marcadores SNP
Conforme esperado, pela sua natureza bialélica, aliada à raridade de sítios com frequências mais equilibradas, os SNPs foram os marcadores menos informativos, demandando um maior número de locos para atingir elevada confiabilidade estatística em avaliações de paternidade e de identificação individual. Comparativamente aos microssatélites, os SNPs apresentaram um conteúdo informativo cerca de sete vezes menor do que os di- e trinucleotídeos e cerca de duas vezes menor do que os tetra-, penta e hexanucleotídeos. Esses resultados são consistentes com predições teóricas e simulações comparando o poder informativo entre microssatélites dinucleotídeos e SNPs para genotipagem em seres humanos (KRAWCZAK, 1999; GILL, 2001; VIGNAL et al., 2002; ROSENBERG et al., 2003). Hamblin et al. (2007) verificou que 89 microssatélites altamente informativos apresentaram um melhor desempenho do que um conjunto de 847 SNPs para clusterização de germoplasma de milho em diferentes populações, assim como forneceram um melhor poder de resolução na estimativa de distância genética baseado no compartilhamento de alelos.
Apesar de pouco informativos individualmente e comparativamente com os microssatélites, a grande abundância, distribuição relativamente igual ao longo do genoma e o recente desenvolvimento de metodologias que permitem a genotipagem em larga escala, fazem com que os SNPs constituam uma alternativa interessante para os programas de melhoramento. Além disso, a facilidade de automação dessas metodologias, diminuindo a necessidade de mão de obra, e o baixo custo por “data point” pode levar a uma diminuição do custo total de análises genéticas e tornar mais viável o processo de seleção assistida por marcadoes em estratégias de seleção genômica, por exemplo.
Entretanto, apesar das vantagens dos marcadores SNPs, o desenvolvimento de painéis de SNPs com elevado conteúdo informativo em espécies vegetais ainda está se iniciando, basicamente em função dos custos envolvidos nas etapas de desenvolvimento e validação desta classe de marcadores e da necessidade de equipamentos específicos para a sua genotipagem.
Da mesma maneira que observado para os tetra-, penta- e hexanucleotídeos, uma triagem ampla para marcadores SNPs pode permitir a busca de mais locos com elevado poder informativo para avaliação de paternidade e identificação individual, diminuindo assim o número de marcadores necessários para a realização das análises genéticas em programas de melhoramento. Yoon et al. (2007) verificou por meio de simulações que um painel de 23 SNPs, selecionados visando um máximo poder informativo para distinção de cultivares de soja, é capaz de distinguir 2.200 cultivares, enquanto conjuntos de painéis aleatórios de 23 SNPs permitiram a identificação individual de apenas 50 cultivares.
No caso do gênero Eucalyptus, a disponibilidade da seqüência completa do genoma de E.
grandis facilitará o processo de mineração de novos SNPs devido a presença de uma seqüência
de referência. Dessa maneira, o desenvolvimento de um painel formado apenas por marcadores SNPs com elevado conteúdo informativo tornará possível combinar em um único sistema de genotipagem uma elevada confiabilidade estatística na análise genética com um número relativamente pequeno de marcadores, uma metodologia altamente automatizada, com baixa taxa de erro de genotipagem e a um custo reduzido.
5.2.2 Proposta de multiplex com máximo poder informativo
Para os diferentes marcadores avaliados, os valores de PIC, probabilidade de exclusão de paternidade (PE-1 e PE-2) e probabilidade de identidade apresentaram uma diferença significativa entre as espécies avaliadas, refletindo a diferença no número de alelos e na distribuição de freqüências alélicas nas diferentes espécies.
É o caso do loco EMBRA157 que apresentou apenas um alelo em E. nitens, cinco alelos em E. camaldulensis e 11 alelos em E. urophylla. Esse resultado indica que a seleção de marcadores altamente informativos feita com base em parâmetros de conteúdo informativo (PIC, PE, PI) de apenas uma única espécie deve ser tomada com cautela. No desenvolvimento de baterias de marcadores moleculares para identificação individual e avaliação de paternidade, é fundamental considerar que o poder informativo de cada marcador pode variar significativamente entre as populações (KRAWCZAK, 1999). A seleção de marcadores com base em parâmetros de apenas uma única espécie pode levar a uma redução significativa do poder informativo dos marcadores se os mesmos forem utilizados em programas de melhoramento de outra espécie ou envolvendo híbridos, como é o caso do gênero Eucalyptus.
Além das análises de poder informativo para cada espécie, foi proposto um único multiplex com máximo poder informativo, nas seis espécies simultaneamente, para cada um dos três conjuntos marcadores avaliados visando sua aplicação na rotina de genotipagem de árvores do gênero Eucalyptus.
Para os locos di- e trinucleotídeos foi montado um multiplex de oito locos que apresentou valores de probabilidade de exclusão combinada acima de 99% em todas as espécies, com exceção de E. nitens (98,7%), e valores extremamente baixos de probabilidade de identidade para as seis espécies, variando de 1,8 E-13 para E. grandis a 1,1 E-09 para E. nitens. Sendo assim, o multiplex proposto fornece elevado poder estatístico e alta acurácia em análises de identificação individual e avaliações de paternidade, podendo ser utilizado para monitoramento em programas de melhoramento. Aplicações de paineis de microssatélites incluem não apenas identificação clonal, mas também seleção de genitores. Grattapaglia et al. (2004) propôs uma abordagem de seleção retrospectiva de genitores de maior capacidade específica de combinação baseada em testes de paternidade. Sementes derivadas do intercruzamento somente os genitores selecionados
resultou na geração subsequente em um ganho médio de 24,3% em crescimento volumétrico. Chaix et al. (2010) demonstrou utilizando apenas seis microssatélites dinucleotídeos em um pomar de sementes de polinização aberta de E. grandis que a realização de análises de paternidade no contexto do melhoramento assistido por marcadores pode aumentar os ganhos esperados em cada ciclo de seleção e melhorar a eficiência dos pomares de sementes utilizadas como população de melhoramento.
Para os locos tetra-, penta- e hexanucleotídeos, o baixo número de alelos se torna uma vantagem quando na montagem de multiplex, uma vez que a baixa amplitude alélica permite que mais marcadores sejam marcados com a mesma fluorescência, permitindo analisar um maior número de marcadores no mesmo multiplex. Foi montado um multiplex com 10 locos o qual apresentou valores de probabilidade de exclusão combinada abaixo de 99% nas seis espécies em casos de controle de apenas um parental (PE-1). No entanto, em casos de controle paterno e materno (PE-2), esse multiplex apresentou valores acima ou muito próximos a 99% para todas as espécies. Além disso, valores extremamente baixos de probabilidade de identidade combinada foram verificados para as seis espécies, variando de 7,5E -10 para E. camaldulensis a 3,1E -07 para E. nitens. Esses resultados mostram que esse multiplex pode ser utilizado para avaliação de identidade clonal com grande eficácia assim como para avaliação de paternidade.
Faria et al. (2011) propôs um multiplex composto por 14 microssatélites o qual atingiu valores de probabilidade de exclusão combinada que variou de 99,77% para E. globulus a 99,99% para E. camaldulensis em casos de controle de um parental (PE1) e atingiu valores acima de 99,99% para as quatro espécies em análise em casos de controle dos dois parentais (PE2). Além disso, esse 14-Plex apresentou valores muito baixos de probabilidade de identidade combinada que variou de 5.0393 E−13 para E. camaldulensis a 2.1055 E−10 para E. globulus.
Pascal et al. (2009) montaram dois multiplex de microssatélites (quatro locos cada multiplex) para a realização de uma análise de 848 indivíduos distribuídos em três populações de
Populus euphratica. Os dois multiplex combinados atingiram um valor de probabilidade de
identidade combinada de 2.39 x 10-5 e valores de probabilidade de exclusão combinada de 0,89, em casos de controle de apenas um parental (PE1), e 0,98, em casos de controle de dois parentais (PE2). Zhang et al. (2006) utilizaram 15 microssatélites em uma análise de 141 acessos de cacau
e verificaram que a probabilidade de identidade ficou próxima de zero ao utilizar apenas os sete microssatélites mais informativos para essa coleção de germoplasma.
Considerando o elevado poder informativo presente nos locos di- e trinucleotídeos e a precisão de genotipagem presente nos locos tetra-, penta- e hexanucleotídeos, um único multiplex combinando locos dessas duas diferentes baterias se mostra uma estratégia interessante para monitoramento e avaliação de paternidade e identidade clonal em programas de melhoramento. Esse multiplex seria capaz de fornecer simultaneamente elevado conteúdo informativo e elevada precisão na qualidade da genotipagem. Enquanto os microsstaélites di- e trinucleotídeos forneceriam um incremento de poder estatístico do sistema, os locos tetra-, penta- e hexanucleotídeos além de fornecer conteúdo informativo adicional, funcionariam como um controle de qualidade de genotipagem.
O multiplex de SNPs, assim como os multiplex de microssatélites, foi montado buscando um elevado conteúdo informativo para as seis espécies. Os 96 SNPs foram selecionados por meio da busca de locos que apresentassem valores próximos de freqüências alélicas entre os dois alelos, ou seja, locos com elevados valores de MAF para as seis espécies simultaneamente. Um filtro inicial visando a busca de locos que apresentassem valor de MAF acima de zero para as seis espécies foi utilizado, entretanto foram encontrados apenas 55 SNPs com esse perfil. Os resultados encontrados na avaliação de probabilidade de exclusão combinada para cada espécie individualmente evidenciou que esse número de marcadores seria muito limitado para se obter elevado poder estatístico nas seis espécies simultaneamente.
Um filtro menos estringente foi utilizado, visando a busca de locos que apresentassem valor de MAF igual a zero para no máximo uma única espécie. Um elevado número de SNPs com esse perfil foi encontrado. Estes SNPs foram ordenados de acordo com os valores médios de MAF para as seis espécies e os 96 SNPs com os maiores valores foram selecionados para compor o painel final. O multiplex de 96 SNPs selecionados atingiu valores de probabilidade de exclusão combinada acima de 99% para todas as espécies, tendo também como exceção a espécie E.
nitens, que apresentou um valor de 98,33% em casos de controle de apenas um parental. Os
valores de probabilidade de identidade combinada verificados para esse multiplex foram os menores entre os três multiplex avaliados, variando de 1,4 E-52 para E. grandis a 1,0 E-30 para
SNPs para a realização de avaliação de paternidade e identificação individual em programas de melhoramento.
Diversos trabalhos demonstram o elevado poder de resolução estatística presente em painéis com dezenas de marcadores SNPs para a resolução de paternidade e identificação individual em programas de melhoramento de espécies animais (HEATON et al., 2002; WERNER et al., 2004; ROHRER, FREKING e NONNEMAN, 2007; HARA et al., 2010), até mesmo para espécies com baixa variabilidade genética devido a ocorrência de gargalo genético (TOKARSKA et al., 2009). Entretanto, o desenvolvimento e utilização de painéis de dezenas de SNPs para análises de paternidade e identificação individual em espécies vegetais ainda é um tema raro na literatura.
No caso de espécies de Eucalyptus o elevado conteúdo informativo verificado no 96-plex de SNPs desenvolvido neste trabalho abre novas perspectivas demonstrando a possibilidade da utilização de painéis de SNPs para avaliação de paternidade e identificação individual em programas de melhoramento de espécies do gênero. Além disso, painéis reduzidos de SNPs podem ser utilizados em programas de melhoramento que envolvam apenas uma única espécie ou híbridos conhecidos de duas espécies, uma vez que quanto menor o número de espécies envolvidas maior a chance de encontrar SNPs com elevado poder informativo. A busca de novos SNPs que apresentem distribuição de freqüências alélicas mais informativas para esse tipo de análise possibilita ainda o desenvolvimento de painéis com um número reduzido de marcadores, porém mantendo o mesmo poder estatístico.
5.3 ESTRUTURA POPULACIONAL E ALOCAÇÃO DE CLONES HÍBRIDOS
5.3.1 Avaliação de estrutura populacional
Estudos relacionados à estrutura genética de populações naturais de Eucalyptus são de