3 Method
3.3 Research design
A utilização das novas tecnologias de sequenciamento vem promovendo uma ampla expansão na quantidade de informações que podem ser extraídas a partir de estudos de genômica. Seguindo o crescimento da capacidade de geração de dados, há também a requisição pelo desenvolvimento de novos métodos de análise que possam ser utilizados para identificar desde simples modificações em uma única base nucleotídica, até inferir ancestralidade a partir de sequências gênicas de organismos recentes. No presente trabalho examinamos, por meio de ferramentas da biologia molecular e da bioinformática, o genoma de 20 isolados de L. infantum, um dos parasitas responsáveis pela leishmaniose, doença que nos últimos anos vem adquirindo um novo perfil epidemiológico devido a dinâmica populacional adotada pela população nas regiões endêmicas a doença (JERONIMO et al., 1994; URANW et al., 2013).
Empregando dados de sequenciamento de 20 isolados de L. infantum do Estado do Rio Grande do Norte, utilizamos o genoma da variedade JPCM5 como referência para a montagem das reads. Foi identificado que o conteúdo genômico dos 20 isolados possui um alto grau de identidade com a referência, com todos apresentando identidade acima de 99,5%. Aparentemente não houve uma grande variação genômica envolvendo os isolados do RN em relação à sequência de referência, considerando que a divergência entre as duas tenha ocorrido em algum ponto nos últimos 500 anos. KUHLS et al., (2011) utilizaram sequências de 98 isolados de L. infantum do novo mundo e 308 do velho mundo, e identificaram que a população de parasitas circulantes nas regiões das Américas advém de isolados identificados nos países do sudoeste europeu, e que foram introduzidos no continente do novo mundo múltiplas vezes e em distintos locais, por meio do processo de colonização.
Após a eliminação das inconsistências apresentadas na extremidade dos cromossomos (regiões teloméricas) foi realizado um alinhamento global do
genoma dos 20 isolados do RN, e por meio de comparações par-a-par, observou-se uma prevalência de 99,9% na identidade das amostras. Apesar do alto grau de identidade, uma matriz de dissimilaridade (Tabela 4) foi gerada para identificar a quantidade real de bases que se mostraram diferenciadas entre os genomas. O grupo de isolados assintomáticos foi o que apresentou um menor grau de dissimilaridade entre as suas bases, variando entre 1335 a 2252, sendo a amostra 18Ah a mais dissimilar de todas. O isolado obtido a partir de ulcerações cutâneas em humano (6CLh) apresentou um número reduzido de dissimilaridades em relação às amostras assintomáticas quando comparado com as outras amostras obtidas de pacientes sintomáticos a leishmaniose. Considerando os valores de identidade dos isolados de L. infantum do RN entre si, e desses mesmos isolados com o JPCM5, podemos interpretar que o conteúdo genômico desses parasitas passou por poucos processos de modificações no decorrer da história evolutiva do parasita. O conteúdo gênico é muito similar até mesmo quando as diferenças encontradas são comparadas entre diferentes espécies de Leishmania, havendo um alto grau de sintenia e similaridade, como observado por PEACOCK et al., (2008) e DOWNING et al. (2011).
Fazendo uso dos dados de dissimilaridade entre as bases nucleotídicas dos genomas de L. infantum isoladas no RN, foi possível distribuir o número de variações de bases e seus respectivos cromossomos. Posteriormente, os isolados foram agrupados de acordo com as características do isolado e então foram criados os grupos VLh (1991-93) (amostras 1VLH90, 2VLh90, 3VLh90, 4VLh90 e 5VLh90), VLh + CLh (2009-13) (12VLh, 13VLh, 14VLh, 19VLh, 20VLh e 6CLh), Ah (2011-12) (8Ah, 9Ah, 10Ah, 18Ah) e VLd (2010-12) (7VLd, 11VLd, 15VLd, 16VLd e 17VLd), os quais correspondem aos isolados da década de 1990, isolados de LV e LC dos anos recentes, isolados assintomáticos e isolados caninos, respectivamente. Para cada um dos grupos foi calculado o valor médio da diversidade nucleotídica (Pi) em cada um dos 36 cromossomos, assim, foi gerado o gráfico de Pi (Figura 4). O gráfico de Pi nos mostra que a média da diversidade dos nucleotídeos em todos os cromossomos para os
grupos VLh se mostraram superiores quando comparados o grupo de isolados assintomáticos e caninos, notando também, que o perfil de diversidade apresentado por VLh (1991-93) é sempre seguido por VLh + CLh (2009-13), com exceção do cromossomo 9 para o grupo da década de 90, que apresentou alta diversidade. É observada uma maior diversidade nucleotídica nos cromossomos maiores (a partir do 31), em todos os grupos. A detecção de altos graus de diversidade nucleotídica podem ser um indicativo de recombinação sexual, entre diferentes populações de Leishmania, no interior do vetor (SADLOVA et al., 2011), entretanto, relatos apontam essas recombinações apenas como eventos aleatórios e com baixa significância para susceptibilidade da doença em diferentes populações de L. infantum e L. donovani (ROGERS et al., 2014).
Os SNPs extraídos por meio de chamadas de variantes por meio do
pipeline GATK, foram armazenados em um banco de dados MySQL e utilizados
para comparação par-a-par das variantes de cada um dos genomas, excluindo variantes do tipo indels e mantendo apenas SNPs. A princípio, comparou-se os SNPs pertencentes aos isolados obtidos do mesmo paciente (19VLh e 20VLh). Pode-se identificar que estas duas amostras foram as que apresentaram maior número de SNPs compartilhados (81 SNPs) em relação a JPCM5, comprovando a heterogeneidade das amostras. Em seguida comparamos os isolados menos dissimilares (8Ah e 10Ah; Tabela 4) e detectou-se que 8Ah apresenta apenas 32 SNPs únicos, enquanto 10Ah possui apenas 29, e além disso, compartilham apenas 1 SNP não apresentado pelos demais 18 isolados. Esse resultado mostrou-se contrastante, comparado ao encontrado entre 19VLh e 20VLh que apresentaram 81 SNPs. Foram também comparadas as amostras 13VLh e 17VLh, as mais dissimilares, e foi possível detectar altos níveis de SNPs únicos para cada uma das amostras, porém, apenas 1 compartilhado. Os resultados mostram que os isolados 19LVh e 20VLh, do mesmo paciente, são muito similares. Logo excluindo-se a hipótese de aparecimento de variantes genômicas devido ao processo de cultura/clonagem dos isolados, entretanto não se pode negar a probabilidade de que o paciente tenha sido infectado por duas cepas distintas, porém próximas.
Apesar de todas as amostras apresentarem SNPs, em relação ao JPCM5, a maioria parece ocorrer em regiões intergênicas, de pseudogenes ou de proteínas hipotéticas (Anexos 1, 2 e 3), e poucos aparecem compartilhados entre os 4 grupos de L. infantum. Assim como observado por PEACKOCK et al. (2007), a maioria das variantes encontradas entre L. infantum, L. braziliensis e L.
major estão localizadas em regiões não-codificantes e, normalmente,
associadas a processos de geração de pseudogenes.
Em outra análise, utilizou-se tanto as variantes únicas de nucleotídeos, como as variantes estruturais para identificarmos como se agrupavam as amostras de acordo com suas variações. Para isso, foi realizada uma análise de componentes principais (PCA; Figura 6) seguida de uma clusterização hierárquica (Figura 7) com base nos valores da PCA. Apesar da baixa porcentagem das duas principais componentes explicarem somente 16,5% (9% + 7,5%) da variação, foi possível observar que 14 amostras foram agrupadas enquanto que 6 permaneceram como outliers. Dentre as amostras que não se agruparam foram identificados 3 isolados de LV na década de 90, e 3 de LV isolados nos anos recentes, sendo duas de um mesmo paciente (19VLh e 20VLh) e outra isolada em Açu (13LVh), uma região mais distante da área metropolitana de Natal. Concomitantemente, realizou-se a mesma análise utilizando apenas os SNPs (Anexo 5) e foi observado apenas o agrupamento de 9 amostras, dentre elas as amostras de humanos assintomáticos, enquanto que as outras 11 se dispersaram aleatoriamente. A utilização de variantes estruturais (SNPs e indels) pode estar associada com alterações em regiões de micro e minissatélites. Essas regiões foram previamente descritas por estarem associadas com a genotipagem de subpopulações de L. braziliensis em Corte de Pedra/Brasil, que apresentavam uma região de microssatélite GAn funcional e ilhas CpG que alteravam a proximidade dos promotores ao gene FLI1 (CASTELLUCCI et al., 2011). Esse resultado corrobora com os achados nas análises dos SNPs específicos, mostrando que não há uma grande variação de nucleotídeos dentro de regiões codificantes e muito menos uma associação com as formas clínicas apresentadas (LIMA et al., 2012). Utilizando o método de
agrupamento hierárquico, observou-se a formação de dois grupos, um formado pelas mesmas amostras outliers da PCA e a amostra 4VLh (da década de 90) como raiz do dendograma (root).
O alinhamento das sequências consenso do genoma de cada um dos isolados foi utilizado para realizar uma análise filogenética por métodos de inferência Bayesiana. O dendrograma formado (Figura 8A) mostra a formação de dois clados principais, um composto pelas amostras 13VLh, 1VLh90, 2VLh90 e 4VLh90, e outro onde se observa uma dicotomia que separa os isolados do mesmo paciente, 19VLh e 20VLh, de um grupo composto pelo restante das amostras. Nota-se que os isolados assintomáticos, assim como o isolado de leishmaniose cutânea, 6CLh, se agruparam nos ramos mais derivados da árvore, e que cada evento dicotômico ocorreu suportado por ramos curtos. Esse resultado corrobora com os achados das análises dos SNPs, uma vez que os dois isolados da década de 90 (5VLh90 e 3VLh90) apresentam-se como membros componentes do clado mais generalista da árvore. Estes resultados podem representar uma prevalência de um tipo circulante de Leishmania
infantum no RN, visto que dentre os 20 isolados somente 6 foram excluídos do
grande grupo, além de sugerir que as amostras assintomáticas representam uma nova variação dentro da população.
Adicionalmente foi realizada uma análise da dinâmica populacional do genoma dos isolados, por meio de um Extended Baysian Skyline Plot (EBSP). No EBSP o eixo das abcissas (x) mostra o tempo em unidade de mutações por sítios, de modo que o ponto 0 seja o ano mais recente de coleta (2013), e o eixo y mostra o tamanho da população genômica. Pode-se observar que inicialmente não houve alteração no tamanho da população, entretanto ocorre um repentino aumento, nos anos mais recentes, seguido de uma pequena inflexão nos últimos anos. No EBSP o tamanho da população depende somente dos eventos de coalescência na genealogia, e não das relações entre os indivíduos (DRUMMOND et al., 2005; HO; SHAPIRO, 2011), desse modo, eventos coalescentes ocorrendo de maneira sucessiva e rápida (ramos curtos na topologia da filogenia) são indicativos de uma pequena população. Relacionando
a topologia da árvore filogenética com o EBSP pode-se supor que o crescimento populacional observado é suportado apenas por dois eventos: (i) um representado pela coalescência do grande grupo (14 isolados) com os isolados do mesmo paciente e outro (ii) que representa a junção entre o grupo da década de 90 e a amostra de Açu.
Foram utilizados os valores de cobertura das reads em cada região do genoma para analisar o valor de ploidia de cada cromossomo (Figura 9), de 19 dos 20 isolados. Os resultados mostram que o cromossomo 31 é o único que se mostrou consistentemente trissômico em todas os genomas. Todos os isolados apresentaram características de aneuploidia em algum cromossomo, com exceção do isolado 7VLd que se mostrou predominantemente diploide. No
heatmap observou-se que pelo menos 13, dos 36 cromossomos apresentam-se
diploides ou predominantemente diploides em 19 isolados, enquanto que todos os outros cromossomos mostram alguma variação nos padrões de ploidia, que variam entre di- e trissômicos. Padrões de aneuplodia já foram demonstrados em outras espécies de Leishmania, inclusive, assim como em nosso estudo, o cromossomo 31 sempre se apresenta com o maior número de cópias (tetrassômicos a pentassômicos) (ROGERS 2013, ROGERS 2011, SKERKES 2010). Utilizando os valores de ploidia de outros isolados, foi criado um esquema representativo para a uniformidade diploide dos isolados do Brasil, Nepal e da Turquia L. infantum e L. donovani (Figura 10). A partir do esquema representativo, observa-se que, com exceção do cromossomo 31, que é sempre aneuploide nos 48 isolados, os cromossomos maiores possuem uma probabilidade maior de serem exclusivamente diplóides do que os cromossomos menores. Por exemplo, entre os 15 cromossomos menores (cromossomos 1 ao 15), apenas 20% são exclusivamente diplóides em um ou três grupos de isolados, enquanto que entre os 21 cromossomos seguintes, 67% são exclusivamente diplóides, em um ou mais dos 3 grupos de isolados.
A razão pela qual alguns cromossomos são restritamente diplóides ainda não está muito clara, entretanto, uma das possibilidades é a existência de genes ou regiões cuja expressão elevada, mesmo que durante um curto período, possa
vir a causar danos deletérios à célula. Essa possibilidade é aumentada para os cromossomos maiores, uma vez que abrigam uma maior quantidade de genes, que os cromossomos menores. A relação entre o conteúdo da expressão gênica e a quantidade de cópias cromossômicas já foi relatada, quando tentou-se silenciar uma sequência de genes iguais, Lmj1F01.0750, que apresenta um domínio quinase, presentes no cromossomo 1 de L. major. observou-se que os parasitas passaram a apresentar o cromossomo, que até então era diploide, como triplóide de modo a aumentar a expressão da última cópia do gene (MARTÍNEZ-CALVILLO; STUART; MYLER, 2005).
Figura 10 - Cromossomos que apresentam apenas duas cópias nos 19 isolados do Brasil, 17 do
Nepal (DOWNIN et al. 2011) e 12 da Turquia (ROGERS et. al., 2014). 13 cromossomos do Brasil (vermelho), 9 do Nepal (Verde) e 6 da Turquia (Azul) são diploides. Quatro cromossomos (19, 28, 30 e 34) são diploides nos 48 isolados.
A utilização de marcadores genômicos para a análise de diversidade nucleotídica em linhagens de Leishmania infantum no Brasil já vem sendo realizada há algum tempo. Em um estudo com cepas isoladas na região de
10 20 30 40 50 5 10 15 20 25 30 35 Chromosome Number N u m b e r o f Is o la te s S e q u e n ce
d Brazil (19 isolates of L. infantum) Nepal (17 isolates of L. nonovani) Turkey(12 isolates of L. infantum)
(48 total isolates) 48 36 12 19 17 36 34 30 29 28 27 25 24 22 21 19 18 17 16 10 7 3 1
Teresina, PI, foram utilizadas sequências de ITS para identificar possíveis polimorfismos nas populações de Leishmania circulante. Entretanto, observou- se apenas diferenças nucleotídicas entre os parasitas que passaram pelo processo de cultura e aqueles que foram analisados diretamente após a coleta (ALONSO et al., 2010). Em uma outra análise mais abrangente, envolvendo isolados de diferentes estados e regiões brasileiras, SEGATTO et al. (2012) utilizaram sequências de microssatélites para distinguir parasitas circulantes em humanos e cães; e demonstraram que apesar da distinção entre os isolados de cada estado, não havia separação entre as cepas isoladas de humanos ou de cães.
Os resultados apresentados no presente estudo reforçam os achados a respeito da baixa diversidade nucleotídica entre diferentes isolados de L.
infantum, inclusive quando comparados às características clínicas das infecções.
O padrão de diversidade genômica observado é característico de populações que se encontram sob baixa pressão evolutiva ou, até mesmo, livre de seleção (KIMURA, 1983), assim, podemos supor que a estrutura genômica de L.
infantum é altamente especializada na instalação da infecção e que suas
variações são condicionadas de acordo com a resposta individual de seus hospedeiros.