Metodediskusjon - Foreldre til barn med leukemi

A análise dos dados foi realizada utilizando a linguagem de programação R. A linguagem R (R DEVELOPMENT CORE TEAM, 2011) consiste de ambiente estatístico-matemático que permite a execução de cálculos e visualização gráfica dos dados. Existem inúmeros pacotes para realização de múltiplas funções, amplamente utilizados em análises de dados de microarrays.

Material e Métodos | 56

5.7.1 Normalização

Os dados de expressão foram introduzidos no ambiente estatístico- matemático R, versão 2.15.0. Foi então realizada a retirada dos controles positivos e negativos, eliminação de genes cujos valores sobrepuseram os valores de

background, correção do background (sinal – background), e conversão dos dados

em escala logarítmica (log2).

A fim de tornar os dados comparáveis e de reduzir artefatos experimentais é necessário normalizar os valores de intensidade para uma mesma escala. Existem diversos tipos de normalização para dados de microarrays, sendo que o principal desafio na escolha do método de normalização está em balancear os níveis de intensidade ao longo dos experimentos, mantendo os efeitos biológicos investigados. A normalização foi realizada pela metodologia quantile, método considerado o mais robusto, que corrige as diferenças nas densidades de probabilidade de todas as amostras (BOLSTAD et al., 2003).

Para a verificação dos dados após a normalização foi criado gráfico em formato boxplot.

5.7.2 Agrupamento hierárquico dos dados normalizados

Os dados resultantes da normalização foram submetidos ao agrupamento hierárquico (Hierarchical Clustering - HCL), que consiste de um método aglomerativo, onde os perfis de expressão semelhantes são agrupados. Genes e amostras foram submetidos ao agrupamento hierárquico. A distância métrica utilizada foi Pearson uncentered e o método de agrupamento foi average linkage.

Esses procedimentos foram realizados utilizando-se os programas Cluster 3.0 e TreeView 1.60 em plataforma UNIX (EISEN et al., 1998, disponível em http://rana.lbl.gov/EisenSoftware.htm).

Material e Métodos | 57

5.7.3 Correlação de Pearson

O cálculo da correlação de Pearson e a montagem do agrupamento hierárquico dos coeficientes de correlação de Pearson foram executados no ambiente R (R DEVELOPMENT CORE TEAM, 2011). As matrizes de expressão das 3 amostras de controles (pool de 8 indivíduos saudáveis) e 19 pacientes foram inseridas no ambiente R e cada uma das matrizes foi relacionada a uma categoria, resultando em 22 categorias. Cada matriz de expressão continha todos os valores de expressão normalizados para cada amostra, e os coeficientes de correlação de Pearson foram calculados para as 22 x 22 permutações das submatrizes; para cada par de submatriz, um coeficiente de correlação foi obtido e estes valores resultantes dos cálculos foram colocados em uma matriz de 22 x 22. Além disso, realizou-se o agrupamento hierárquico das amostras, a fim de agrupar amostras com perfil de expressão global semelhante. As análises foram realizadas utilizando o pacote gplots e a função heatmap.2.

5.7.4 Análise de Gene Sets (Gene Set Analysis)

A análise de Gene Sets (Gene Set Analysis – GSA) é um método computacional que avalia se um grupo de genes determinados a priori mostra diferenças estatisticamente significantes entre duas condições, por exemplo, controle e pacientes. Para realização desta análise foi utilizado o pacote GSA (EFRON & TIBSHIRANI, 2012. Disponível em http://www-stat.stanford. edu/~tibs/GSA).

Os parâmetros para cálculo referentes ao algoritmo foram ajustados de forma que o número mínimo de genes que um gene set deveria conter para ser aceito era de 05 genes. Foram utilizadas 1000 permutações para execução deste cálculo.

Os gene sets utilizados para comparação foram retirados do banco de dados do Instituto BROAD (BROAD INSTITUTE, disponível em: http://www. broadinstitute.org/gsea/)e a busca por gene sets foi baseada nos gene sets contidos no arquivo C5 Gene Ontology Sets, um banco de dados de assinaturas moleculares (Molecular Signatures Database – MsigDB), que contém uma coleção de gene sets e suas respectivas anotações baseadas em termos de GO, para uso dos software GSEA e GSA. O cut-off para o valor de p (p-value) selecionado foi de 0.05.

Material e Métodos | 58

5.7.5 Cálculo de fold change

Os dados de expressão contidos em cada gene set foram analisados por fold

change, cuja função é identificar diferenças na expressão de um determinado gene

entre duas condições, levando em conta um dado cut-off ou threshold. Nós estabelecemos um fold change de 1.0 para nossos dados, possibilitando observar qualquer diferença nos valores de expressão entre o grupo controle e o grupo dos indivíduos diabéticos.

5.7.6 Agrupamento hierárquico dos genes presentes nos gene sets

Os genes presentes em cada gene set foram submetidos ao agrupamento hierárquico (Hierarchical Clustering - HCL), que consiste de um método aglomerativo, onde os perfis de expressão semelhantes são agrupados. Genes e amostras foram submetidos ao agrupamento hierárquico. A distância métrica utilizada foi Pearson uncentered e o método de agrupamento foi average linkage. Esses procedimentos foram realizados utilizando-se os programas Cluster 3.0 e

TreeView 1.60 em plataforma UNIX. (EISEN et al., 1998. Disponível em:

http://rana.lbl.gov/EisenSoftware.htm).

5.7.7 Seleção de marcadores transcricionais preferencialmente expressos em tipos celulares encontrados no sistema imune

Os genes presentes em cada gene set foram triados utilizando a ferramenta

Gene Skyline, fornecida pelo banco de dados Immunological Genome Project Database para seleção de marcadores transcricionais preferencialmente expressos

em tipos celulares encontrados no sistema imune.

O ImmGen é um projeto que integra 15 centros de pesquisa para obtenção de todos os tipos celulares de linhagens linfoides e mieloides em diferentes estágios de

Material e Métodos | 59

diferenciação, maturação, ativação, estágios efetores, localização tecidual e variações genéticas (HENG; PAINTER, 2008; BENOIST et al., 2012). Disponível em http://www.immgen.org).

Genes que demonstraram perfil de expressão preferencial em um tipo celular foram selecionados como marcadores transcricionais preferenciais para determinado tipo celular, sendo que alguns genes foram selecionados para mais de um tipo celular. O banco de dados selecionado dentro da ferramenta Gene Skyline foi o

Human Hematopoietic (D-Map) (HYATT et al., 2006; HENG et al., 2008).

In document Foreldre til barn med leukemi (sider 26-29)