4.5 Observer patterns
5.1.2 Part 3: Rendering
Várias estatísticas descritivas são comumente utilizadas para resumir os dados de
polimorfismo e estimar os parâmetros populacionais. Assumindo a teoria neutra proposta por
Kimura (1968), a variação genética em nível molecular é considerada amplamente neutra,
sem influência de forças seletivas, e a extensão da variação é determinada primeiramente pela
taxa de mutação e o tamanho efetivo da população (KIMURA & CROW, 1964; NEI, 1987).
Entretanto, é possível testar a hipótese de evolução neutra pela comparação das quantidades
de variação genética observada e esperada. Se a discrepância entre as quantidades observadas
e esperadas for grande, algum tipo de seleção foi invocado (NEI & KUMAR, 2000).
A partir de um modelo neutro é possível utilizar as medidas da diversidade
freqüências alélicas. A disponibilidade de marcadores SNPs com freqüências alélicas
apropriadas é importante para que estes possam ser efetivamente usados para o mapeamento
genético, seja por análises de ligação ou baseadas em técnicas de mapeamento de associação
por desequilíbrio de ligação (KRUGLYAK, 1997; KRUGLYAK, 1999).
A extensão do polimorfismo de DNA pode ser mensurada de várias maneiras
diferentes mas a medida mais comumente utilizada é (1) o número de sítios segregantes por
nucleotídeos e (2) a diversidade nucleotídica.
Ao considerar uma região do DNA, ou seja, um locus, e assumir que m cópias do
segmento são aleatoriamente amostradas de uma população, contendo n nucleotídeos, e
qualquer sítio nucleotídico que apresente dois ou mais nucleotídeos diferentes nas m
seqüências, é denominado de sítio segregante. O número total de sítios segregantes (S)
observados no grupo de dados dividido pelo número total de nucleotídeos examinados é
designado número de sítios segregantes por nucleotídeos (ps). Considerando o valor esperado
de ps sob condições de ausência de recombinação e a presença de novas mutações sempre
ocorrendo em sítios não segregantes, tem-se o modelo genético chamado de modelo sítios-
infinitos. Da mesma forma que ps, θ é definido como um parâmetro de mensuração da variação genética, mais simples que ps, exatamente pelo fato de o segundo ser proporcional à
taxa de mutação e ao tamanho efetivo populacional, independente do tamanho da amostra
(NEI & KUMAR, 2000).
O parâmetro de aplicação em modelos simples de genética de populações que
determina a quantidade e a distribuição da diversidade nucleotídica é denominado parâmetro
de mutação populacional,
θ = 4Neµ
AGCTTAATTAG AGCTTAATTTG AGCTTAATTAG AGTTTAATTAG AGCTTAATTAG AGCTTAATTAG CGCTCAATTAG CGCTCAATTAG CGCTCAATTAG AGCGCATTTAG
Estimativas do parâmetro de mutação populacional podem ser rapidamente calculadas
a partir do número de sítios polimórficos presentes em uma amostra de seqüências obtida de
uma população aleatória. Este parâmetro é denominado θw (WATTERSON, 1975).
Uma segunda forma de estimativa leva em conta a diversidade nucleotídica, também
denominada de π (NEI & LI, 1979), q
π =
Σ
xixjdij ijonde q é o número total de alelos, xi é a freqüência na população (em seqüências) do alelo i, xj
é a freqüência na população (em seqüências) do alelo j e dij é o número de diferenças
nucleotídicas ou substituições por sitio entre os alelos i e j. Resumindo, é o somatório das
diferenças de pares de nucleotídeos entre seqüências de uma amostra e depende tanto das
freqüências quanto do número de sítios polimórficos, diferentemente de θw, que é independente de freqüências.
Para um melhor entendimento dos diferentes parâmetros de diversidade estimados
consideremos um conjunto de 10 seqüências de 11 bases, conforme está indicado abaixo:
Observando estas seqüências temos que:
n = número de nucleotídeos , n = 11
S = número total de sítios segregantes = 6
AGCTTAATTAG AGCTTAATTTG
AGCTTAATTAG
AGTTTAATTAG
Considerando apenas as primeiras quatro seqüências:
e as diferenças entre seqüências:
0 1 2 1 Seqüência 4 1 0 1 0 Seqüência 3 2 1 0 1 Seqüência 2 1 0 1 0 Seqüência 1 Seqüência 4 Seqüência 3 Seqüência 2 Seqüência 1 0 1 2 1 Seqüência 4 1 0 1 0 Seqüência 3 2 1 0 1 Seqüência 2 1 0 1 0 Seqüência 1 Seqüência 4 Seqüência 3 Seqüência 2 Seqüência 1
A diversidade nucleotídica π é igual a:
π = (1 / a ) x ∑ diferenças / (a x n) = π = ¼ x (12/(4x11)) = 0,06818 onde
n = número de nucleotídeos , n = 11
a = tamanho da amostra (número de seqüências) = 4
sob neutralidade π = θπ =4Neµ
Entretanto, mesmo diante das estimativas para a diversidade nucleotídica de um
determinado segmento de DNA ou para todo o genoma, não é de total certeza que os
polimorfismos encontrados são de origem exclusivamente neutra. Desta forma, foram
idealizados testes estatísticos capazes de inferir a neutralidade dos alelos presentes na
população. Tajima (1989) desenvolveu um teste estatístico, o teste D, para testar a hipótese de
que todas as mutações são seletivamente neutras (KIMURA, 1985). O teste D é baseado nas
diferenças entre o número de sítios segregantes e a diversidade nucleotídica e é assim
assumindo que:
onde:
S é o número total de sítios segregantes, n é o número de seqüências nucleotídicas e k é a
média do número de diferenças nucleotídicas entre um par de seqüências.
O valor de D está atrelado a uma significância estatística, p, onde os limites de
confiança são obtidos assumindo que D segue a distribuição beta. O intervalo de confiança
sobre o valor de D é importante, pois é ele que indica se a seleção para o segmento analisado
está ocorrendo. Valores de D iguais a zero sugere aderência total à teoria neutra; D < 0 sugere
diversidade reduzida, ou seja, seleção, e D > 0 sugere seleção balanceada.
Com o advento da genômica e a busca incessante para a descoberta de novos genes,
grandes projetos incluem como ferramentas a construção de banco de dados de seqüências
para o organismo em estudo. A disponibilidade crescente de seqüências parciais de genes a
partir dos projetos genômicos e funcionais permite hoje a identificação de polimorfismos de
base individual (SNP) responsáveis ou associados a QTN (Quantitative Trait Nucleotide). Por
exemplo, em milho, SNPs no gene dwarf8 foram associados com florescimento
(THORNSBERRY et al., 2001). Estas associações por sua vez podem resultar no
desenvolvimento de marcadores para seleção assistida em plantas baseados na variabilidade
de seqüência de genes e não apenas em marcadores microssatélites a eles ligados
(MORGANTE & SALAMINI, 2003). O uso do polimorfismo de genes como marcadores
seqüência destes genes e a variabilidade fenotípica observada. A grande vantagem desta
abordagem em árvores é que a questão potencialmente limitante de equilíbrio de ligação
gamética entre alelos de marcadores moleculares e alelos de genes ligados passa a não ser
relevante. Além disso, esta abordagem permite a análise direta de bancos de germoplasma e
coleções de clones elite detalhadamente caracterizados (GRATTAPAGLIA, 2003).
Explorando uma ampla base de dados de EST (Expressed Sequence Tag) de eucalipto
geradas em 2002/2005, no âmbito do projeto Genolyptus, e o seqüenciamento de amplicons
gerados de indivíduos tomados ao acaso de três espécies do gênero Eucalyptus, esta
dissertação é centrada na análise da diversidade nucleotídica inter e intra-específica de dois
genes que codificam para duas enzimas consideradas chaves na via de biossíntese de lignina,