The developed TIMES model, TIMES-LYR
8.6 Installed capacity related to other work
A maldição da dimensionalidade impede análises exaustivas de três locos ou mais. Mas para dois locos ela é factível. Já em 2005, Marchini et al. mostraram que é possível fazer análise exaustiva de todos os pares de locos de uma plataforma de 350 mil SNPs em cerca de 33 horas, usando um cluster de computadores poderosos. Apesar disso, não temos notícia de que este tipo de análise tenha sido feito em outros estudos nos anos seguintes, talvez porque os recursos computacionais requeridos ainda fossem elevados.
BOOST
Em 2010, Wan e outros da Universidade de Hong-Kong propuseram o BOOST, um novo algoritmo para busca exaustiva de pares epistáticos (WAN et al., 2010). A descoberta deles não chega a ser revolucionária, pois a complexidade do algoritmo continua combinatorial, ou seja, só serve para pares de locos e não para conjuntos maiores. No entanto, eles conseguem fazer essa busca exaustiva de pares de locos de uma maneira muito rápida, até 63 vezes mais rápido que o PLINK (PURCELL et al., 2007), concorrente recomendado em uma recente revisão (CORDELL, 2009). Eles usam um modelo diferente do PLINK. Enquanto este usa regressão logística, incluindo os termos de interação, com 4 graus de liberdade, o BOOST usa um modelo log-linear de tabela de contingência 3x3x2. Este modelo é equivalente ao modelo com regressão logística conforme descrito no próprio artigo e fundamentado em AGRESTI, 2002. A descoberta chave é uma função de aproximação para o cálculo da razão de verossimilhanças que possui forma analítica explícita e cujo cálculo é muito rápido. Contribuiu também uma eficiente representação booleana dos dados, em mapas de bits. Normalmente os estudos usam uma matriz de n indivíduos por m locos, com valores 0, 1 e 2, para os genótipos AA, Aa e aa, respectivamente. O BOOST usa uma matriz de n indivíduos por 3m genótipos, com valores 0 e 1 somente.
O BOOST é um algoritmo em duas fases. Na primeira fase, a razão de verossimilhanças é calculada para todos os cem bilhões de pares possíveis, usando a função de aproximação rápida. A primeira fase seleciona entre 300 a 600 mil pares de locos que irão à segunda fase. A segunda fase realiza o teste qui-quadrado da razão de verossimilhanças de forma precisa para cada par. O BOOST então faz a correção de
Bonferroni, que é muito exigente, e somente uns poucos pares são considerados significantes.
Detalhamento do BOOST
Como o BOOST é parte integrante do algoritmo proposto neste trabalho, oferecemos aqui mais detalhes sobre seu funcionamento.
Entrada: Genótipos da forma 0, 1 ou 2. 0 é o homozigoto para o alelo de referência, estabelecido de antemão. 1 é o heterozigoto e 2 é o homozigoto para o alelo alternativo. O arquivo tem uma linha para cada indivíduo (amostra) e uma coluna para cada SNP. A primeira coluna do arquivo é o fenótipo: 1 para casos, 0 para controles. Pode ser um arquivo para cada cromossomo, que internamente ao BOOST serão justapostos como colunas. Neste caso a coluna de fenótipos tem que ser igual em todos os arquivos. O BOOST não aceita como entrada qualquer outro formato ou detalhe, tais como alelos de referência, identificação dos SNPs ou indivíduos, ou informação para excluir amostras ou SNPs do cálculo.
O parâmetro principal é o limiar do valor de interação (InteractionBoost) para passagem da primeira para a segunda fase, que tem como default o valor 30.
Resumo do método
O BOOST constrói uma tabela de contingência 3x3x2, onde 3 são os genótipos de cada SNP e 2 são os níveis caso e controle do fenótipo. A seguir ele aplica dois modelos log-lineares para serem comparados: o modelo saturado, que leva em conta a interação, e o modelo homogêneo, que não leva em conta a interação. Os dois modelos levam em conta os efeitos aditivo de cada SNP. Então o BOOST calcula a razão de verossimilhanças entre os dois modelos e faz o teste de significância da interação. Cada um dos dois modelos log-lineares equivale a um modelo de regressão logística.
A estatística principal calculada pelo BOOST é a Interaction BOOST. Ela vale 2(LS-LH), ou seja, o dobro da diferença entre os logaritmos de duas verossimilhanças:
a do modelo log-linear saturado e a do modelo log-linear homogêneo. Isso equivale ao logaritmo da razão de chances entre os dois modelos, para aquele par de SNPs. Por exemplo, vejamos o que significa o limiar de InteractionBoost = 30. Esta estatística
InteractionBoost tem uma distribuição qui-quadrado com 4 graus de liberdade. Esse limiar de 30 corresponde a um valor-p não-corrigido de 4,89 x 10-6.
Associação marginal
Um dos resultados reportados pelo BOOST é uma estatística chamada Marginal Association, que mede o efeito individual (aditivo) de cada SNP. Ela não é descrita nos artigos, mas pudemos conferi-la no programa-fonte. Ela é calculada por entropia, tal como entendida na teoria da informação: se uma variável aleatória discreta tem n possíveis resultados, cada um com probabilidade pi, sua entropia é:
H(X) = -∑ pi ln(pi) se pi≠0; 0 se pi = 0
Como o logaritmo de uma probabilidade menor do que um é sempre negativo, a entropia é sempre positiva. O melhor estimador para a probabilidade é a proporção encontrada no estudo. Para o BOOST, a associação marginal do SNP i é:
AMg = 2n[ H(caso-controle) + H(genótipos) – H(interna)]
Em que H(caso-controle) é a entropia da distribuição geral caso-controle, igual para todos os SNPs. Por exemplo, se o número de casos é igual ao de controles, pi = 0,5 e
H(caso-controle) = 0,693. Já no caso do WTCCC, que tinha 2000 casos e 3000 controles, pi = 0,4 e H(caso-controle) = 0,673.
H(genótipos) é a entropia da distribuição entre os três genótipos, em que pi =
p(AA), p(Aa) ou p(aa). Finalmente, H(interna) é a entropia da distribuição da tabela de contingência completa 3x2, onde cada proporção é nij/n.
A medida do efeito individual por entropia é útil, mas ela é pouco usada por não ter uma distribuição estatística associada, que permita-nos calcular a significância da medida.
GBOOST
O grupo do BOOST foi além, adaptando o BOOST para rodar em placa de vídeo (GPU – Graphical Processing Unit), com uso de processamento paralelo, com o artigo "GBOOST: uma ferramenta baseada em GPU para detectar interações gene- gene em estudos de associação de genoma inteiro" (YUNG et al., 2011). Eles conseguiram reduzir em 40 vezes o tempo de processamento do BOOST. Os dados do WTCCC (Welcome Trust Case-Control Consortium) (CARDON et al., 2007) de diabetes tipo 2, com cerca de 350 mil locos, foram analisados em menos de uma hora e meia.
A velocidade desse algoritmo, aliada ao preço acessível da placa, agora permite que praticamente todo estudo de genoma inteiro seja analisado para busca de pares epistáticos. Já a busca exaustiva de trios, quartetos e conjuntos maiores continua proibitiva. Uma busca de trios em 350 mil SNPs, supondo que o GBOOST fosse adaptado para trios, levaria cerca de 21 anos, mesmo usando placa de vídeo.
4 Objetivos
Dentro do problema geral da busca de marcadores genéticos em todo o genoma potencialmente associados a fenótipos do tipo caso/controle, o objetivo principal deste trabalho foi a proposta de um algoritmo para busca de trios de lócus epistáticos, utilizando a busca exaustiva de pares como primeira fase, e explorando duas idéias principais:
a) Uso da interação entre pares para busca de trios “fechados”; b) Agrupamento de SNPs próximos em blocos haplotípicos.
Outros objetivos foram a implementação deste algoritmo em um conjunto de ferramentas computacionais e seu teste usando os dados fornecidos pelo WTCCC. A hipótese principal a ser testada é a de que os trios sugeridos pelo Troost estão associados à doença em questão.