Part 3: Rendering - Observer patterns - A DVI Previewer in Java

4.5 Observer patterns

5.1.2 Part 3: Rendering

Várias estatísticas descritivas são comumente utilizadas para resumir os dados de

polimorfismo e estimar os parâmetros populacionais. Assumindo a teoria neutra proposta por

Kimura (1968), a variação genética em nível molecular é considerada amplamente neutra,

sem influência de forças seletivas, e a extensão da variação é determinada primeiramente pela

taxa de mutação e o tamanho efetivo da população (KIMURA & CROW, 1964; NEI, 1987).

Entretanto, é possível testar a hipótese de evolução neutra pela comparação das quantidades

de variação genética observada e esperada. Se a discrepância entre as quantidades observadas

e esperadas for grande, algum tipo de seleção foi invocado (NEI & KUMAR, 2000).

A partir de um modelo neutro é possível utilizar as medidas da diversidade

freqüências alélicas. A disponibilidade de marcadores SNPs com freqüências alélicas

apropriadas é importante para que estes possam ser efetivamente usados para o mapeamento

genético, seja por análises de ligação ou baseadas em técnicas de mapeamento de associação

por desequilíbrio de ligação (KRUGLYAK, 1997; KRUGLYAK, 1999).

A extensão do polimorfismo de DNA pode ser mensurada de várias maneiras

diferentes mas a medida mais comumente utilizada é (1) o número de sítios segregantes por

nucleotídeos e (2) a diversidade nucleotídica.

Ao considerar uma região do DNA, ou seja, um locus, e assumir que m cópias do

segmento são aleatoriamente amostradas de uma população, contendo n nucleotídeos, e

qualquer sítio nucleotídico que apresente dois ou mais nucleotídeos diferentes nas m

seqüências, é denominado de sítio segregante. O número total de sítios segregantes (S)

observados no grupo de dados dividido pelo número total de nucleotídeos examinados é

designado número de sítios segregantes por nucleotídeos (ps). Considerando o valor esperado

de ps sob condições de ausência de recombinação e a presença de novas mutações sempre

ocorrendo em sítios não segregantes, tem-se o modelo genético chamado de modelo sítios-

infinitos. Da mesma forma que ps, θ é definido como um parâmetro de mensuração da variação genética, mais simples que ps, exatamente pelo fato de o segundo ser proporcional à

taxa de mutação e ao tamanho efetivo populacional, independente do tamanho da amostra

(NEI & KUMAR, 2000).

O parâmetro de aplicação em modelos simples de genética de populações que

determina a quantidade e a distribuição da diversidade nucleotídica é denominado parâmetro

de mutação populacional,

θ = 4Neµ

AGCTTAATTAG AGCTTAATTTG AGCTTAATTAG AGTTTAATTAG AGCTTAATTAG AGCTTAATTAG CGCTCAATTAG CGCTCAATTAG CGCTCAATTAG AGCGCATTTAG

Estimativas do parâmetro de mutação populacional podem ser rapidamente calculadas

a partir do número de sítios polimórficos presentes em uma amostra de seqüências obtida de

uma população aleatória. Este parâmetro é denominado θw (WATTERSON, 1975).

Uma segunda forma de estimativa leva em conta a diversidade nucleotídica, também

denominada de π (NEI & LI, 1979), q

π =

Σ

xixjdij ij

onde q é o número total de alelos, xi é a freqüência na população (em seqüências) do alelo i, xj

é a freqüência na população (em seqüências) do alelo j e dij é o número de diferenças

nucleotídicas ou substituições por sitio entre os alelos i e j. Resumindo, é o somatório das

diferenças de pares de nucleotídeos entre seqüências de uma amostra e depende tanto das

freqüências quanto do número de sítios polimórficos, diferentemente de θw, que é independente de freqüências.

Para um melhor entendimento dos diferentes parâmetros de diversidade estimados

consideremos um conjunto de 10 seqüências de 11 bases, conforme está indicado abaixo:

Observando estas seqüências temos que:

n = número de nucleotídeos , n = 11

S = número total de sítios segregantes = 6

AGCTTAATTAG AGCTTAATTTG

AGCTTAATTAG

AGTTTAATTAG

Considerando apenas as primeiras quatro seqüências:

e as diferenças entre seqüências:

0 1 2 1 Seqüência 4 1 0 1 0 Seqüência 3 2 1 0 1 Seqüência 2 1 0 1 0 Seqüência 1 Seqüência 4 Seqüência 3 Seqüência 2 Seqüência 1 0 1 2 1 Seqüência 4 1 0 1 0 Seqüência 3 2 1 0 1 Seqüência 2 1 0 1 0 Seqüência 1 Seqüência 4 Seqüência 3 Seqüência 2 Seqüência 1

A diversidade nucleotídica π é igual a:

π = (1 / a ) x ∑ diferenças / (a x n) = π = ¼ x (12/(4x11)) = 0,06818 onde

n = número de nucleotídeos , n = 11

a = tamanho da amostra (número de seqüências) = 4

sob neutralidade π = θπ =4Neµ

Entretanto, mesmo diante das estimativas para a diversidade nucleotídica de um

determinado segmento de DNA ou para todo o genoma, não é de total certeza que os

polimorfismos encontrados são de origem exclusivamente neutra. Desta forma, foram

idealizados testes estatísticos capazes de inferir a neutralidade dos alelos presentes na

população. Tajima (1989) desenvolveu um teste estatístico, o teste D, para testar a hipótese de

que todas as mutações são seletivamente neutras (KIMURA, 1985). O teste D é baseado nas

diferenças entre o número de sítios segregantes e a diversidade nucleotídica e é assim

assumindo que:

onde:

S é o número total de sítios segregantes, n é o número de seqüências nucleotídicas e k é a

média do número de diferenças nucleotídicas entre um par de seqüências.

O valor de D está atrelado a uma significância estatística, p, onde os limites de

confiança são obtidos assumindo que D segue a distribuição beta. O intervalo de confiança

sobre o valor de D é importante, pois é ele que indica se a seleção para o segmento analisado

está ocorrendo. Valores de D iguais a zero sugere aderência total à teoria neutra; D < 0 sugere

diversidade reduzida, ou seja, seleção, e D > 0 sugere seleção balanceada.

Com o advento da genômica e a busca incessante para a descoberta de novos genes,

grandes projetos incluem como ferramentas a construção de banco de dados de seqüências

para o organismo em estudo. A disponibilidade crescente de seqüências parciais de genes a

partir dos projetos genômicos e funcionais permite hoje a identificação de polimorfismos de

base individual (SNP) responsáveis ou associados a QTN (Quantitative Trait Nucleotide). Por

exemplo, em milho, SNPs no gene dwarf8 foram associados com florescimento

(THORNSBERRY et al., 2001). Estas associações por sua vez podem resultar no

desenvolvimento de marcadores para seleção assistida em plantas baseados na variabilidade

de seqüência de genes e não apenas em marcadores microssatélites a eles ligados

(MORGANTE & SALAMINI, 2003). O uso do polimorfismo de genes como marcadores

seqüência destes genes e a variabilidade fenotípica observada. A grande vantagem desta

abordagem em árvores é que a questão potencialmente limitante de equilíbrio de ligação

gamética entre alelos de marcadores moleculares e alelos de genes ligados passa a não ser

relevante. Além disso, esta abordagem permite a análise direta de bancos de germoplasma e

coleções de clones elite detalhadamente caracterizados (GRATTAPAGLIA, 2003).

Explorando uma ampla base de dados de EST (Expressed Sequence Tag) de eucalipto

geradas em 2002/2005, no âmbito do projeto Genolyptus, e o seqüenciamento de amplicons

gerados de indivíduos tomados ao acaso de três espécies do gênero Eucalyptus, esta

dissertação é centrada na análise da diversidade nucleotídica inter e intra-específica de dois

genes que codificam para duas enzimas consideradas chaves na via de biossíntese de lignina,

In document A DVI Previewer in Java (sider 55-59)