• No results found

As linhagens tumorais derivadas de tumores próstata (DU-145), mama (MCF-7) e pâncreas (Mia PaCa 2) tiveram seu padrão de expressão gênica global analisado através da hibridização de seus conteúdos de RNA com oligoarrays customizados em nosso laboratório e sintetizados pela Agilent. Estas lâminas utilizadas contém 13.274 sondas que medem a expressão de mRNAs codificadores de proteínas, 6.831 sondas que medem a expressão de lncRNAs com evidências de serem transcritos a partir de regiões intrônicas (lncRNAs senso) de genes codificadores de proteína com sequência curada (conjunto RefSeq) e 10.901 sondas que medem a expressão de lncRNAs com evidências de serem transcritos a partir da fita oposta de genes codificadores de proteínas (lncRNAs antissenso).

A estratégia de hibridização está mostrada na figura 4 da subseção 3.5.3 da seção de Materiais e Métodos. Após a extração dos dados, os valores de intensidade foram filtrados. Para o RNA ser considerado expresso na linhagem em análise, o sinal de intensidade da sonda deveria estar significativamente acima do background da lâmina em três das quatro réplicas de medidas de expressão. A Tabela 12 lista o número de sondas de cada tipo consideradas expressas nas linhagens celulares. A Figura 7 mostra a proporção de sondas expressas e não expressas, nas células de cada uma das linhagens estudadas, em relação ao total de sondas na lâmina de oligoarray, por classe de transcrito.

Tabela 12: Número de sondas expressas nas linhagens celulares estudadas.

Figura 7: Proporção de sondas expressas e não expressas, nas três linhagens em estudo, em relação ao total de sondas na lâmina de oligonucleotídeos, por classe de transcrito. Foram considerados RNAs

expressos aqueles que possuíam sinal de intensidade significativamente acima do background da lâmina em três das quatro réplicas medidas. Em cinza escuro está representada a proporção de sondas consideradas expressas na análise e em cinza claro, a proporção de sondas consideradas não expressas na análise.

Foi detectada a expressão de 10 mil a 11 mil sondas que medem mRNAs codificadores de proteínas em cada uma das linhagens. Esses números representam a expressão de cerca de 77% a 84% das sondas que medem mRNAs presentes na lâmina de oligonucleotídeos (Figura 7). As sondas detectadas representam 6.278 (DU-145), 6.255 (MCF-7) e 6.191 (Mia PaCa 2) diferentes loci gênicos expressos em cada uma das linhagens. Em relação aos lncRNAs com orientação antissenso ao locus codificador de proteínas hospedeiro, foram detectadas 4.815 (DU-145, 44% do total de sondas presentes na lâmina), 4.565 (MCF-7, 42% do total de sondas presentes na lâmina) e 3.262 (Mia PaCa 2, 30% do total de sondas presentes na lâmina) sondas positivas em cada uma das linhagens (Tabela 12 e Figura 7). Além disso, foram detectados lncRNAs cuja expressão ocorre a partir de uma região intrônica, na mesma fita que o mRNA pertencente ao locus do gene codificador de proteínas hospedeiro (lncRNAs senso): 2.825 (41% do total presente na lâmina) em DU-145, 2.875 (42% do total de sondas presentes na lâmina) em MCF-7 e 2.113 (31% do total de sondas presentes na lâmina) em Mia PaCa 2 (Tabela 12 e Figura 7).

Essa análise indicou uma menor proporção de lncRNAs intrônicos expressos em cada uma das linhagens em relação a proporção de mRNAs. Está descrito na literatura que RNAs não codificadores apresentam em geral perfis de expressão tecido e/ou célula específico (Ravasi et al., 2006; Mercer et al., 2008; Cabili et al., 2011). O resultado descrito acima corrobora a ideia de que lncRNAs originados em regiões intrônicas possuem características de expressão celular/tecidual comparáveis às observadas para lncRNAs intergênicos, além de corroborar também resultados prévios de nosso grupo utilizando amostras de tecido e a mesma plataforma de oligonucleotíddeos (Nakaya et al., 2007).

Os lncRNAs intrônicos antissenso e senso expressos em pelo menos uma das três linhagens tiveram seu potencial codificador de proteínas avaliado pelo programa CPC – Coding

99% dos transcritos expressos em nossas análises possuem pouco ou nenhum potencial codificador: 5.610 dos 5.625 lncRNAs antissenso e 3.498 dos 3.504 lncRNAs senso.

Com o intuito de obter evidências adicionais de que os lncRNAs antissenso e senso considerados detectados em nossas análises são transcritos reais e não resultantes da hibridização inespecífica com as sondas da lâmina de oligonucleotídeos, as coordenadas genômicas dos 9.129 lncRNAs considerados expressos em pelo menos uma das três linhagens estudadas foram cruzadas com as coordenadas genômicas disponíveis publicamente de RNAs detectados pela metodologia de RNA-seq em 7 bibliotecas de diferentes linhagens celulares (ENCODE Caltech

RNA-seq Libraries, http://genome.ucsc.edu/cgi-

bin/hgTrackUi?hgsid=268692585&c=chr1&g=wgEncodeCaltechRnaSeq). As 7 bibliotecas utilizadas para comparação com os dados detectados por nossa lâmina de oligoarray foram geradas a partir de RNA poli(A)+ obtidos de 7 linhagens celulares, preservando a informação da orientação original dos transcritos. A Figura 8 mostra o resultado da análise de sobreposição de coordenadas genômicas dos 6.611 mRNAs, dos 5.625 lncRNAs antissenso e dos 3.504 lncRNAs senso expressos em pelo menos uma das três linhagens estudadas com as coordenadas genômicas dos RNAs detectados nas 7 bibliotecas analisadas pelo projeto ENCODE Caltech RNA-seq Libraries.

Figura 8: Número de lncRNAs intrônicos antissenso e senso e mRNAs detectados em pelo menos uma das três linhagens estudadas (DU-145, MCF-7 e Mia PaCa 2) e identificados em outras linhagens celulares e por outra metodologia. As coordenadas genômicas dos 6.611 mRNAs

codificadores de proteínas, 5.625 lncRNAs antissenso e 3.504 lncRNAs senso foram cruzadas com as coordenadas genômicas de RNAs detectados em sete linhagens celulares diferentes por RNA-seq (ENCODE Caltech RNA-seq Libraries). Na figura estão plotados os números de transcritos detectados em nossos experimentos com oligoarrays e que também foram detectados em pelo menos uma das sete linhagens do projeto ENCODE Caltech RNA-seq Libraries, por classe de RNA.

Na figura acima podemos notar que a quase totalidade (99%) dos mRNAs expressos em pelo menos uma das três linhagens também apresentam expressão em pelo menos uma das 7 linhagens analisadas nas bibliotecas de RNA-seq Caltech. Para os lncRNAs antissenso, essa sobreposição foi de 32% e para os lncRNAs senso, 86%. A menor sobreposição de coordenadas encontrada para os lncRNAs em relação aos mRNAs pode ser explicada por algumas razões. Como já demonstrado na literatura (Cabili et al., 2011), e como será discutido mais adiante em nossas análises (Figura 10), os ncRNAs possuem abundância de expressão mais baixa que os mRNAs. É sabido, no entanto, que transcritos com menor abundância de expressão são mais difíceis de serem cobertos por experimentos de RNA-seq que transcritos com abundância de expressão maiores. Assim, grandes esforços de sequenciamento devem ser realizados para amostrar a totalidade dessa classe de RNAs. Realizamos uma análise para determinar a cobertura do transcriptoma exônico e intrônico nas 7 bibliotecas de RNA-seq utilizadas (Figura 9).

Figura 9: Curva de saturação da cobertura de sequenciamento das bibliotecas de RNA-seq do projeto ENCODE Caltech RNA-seq Libraries. O gráfico representa a curva de saturação das tags

sequenciadas por RNA-seq a partir das 7 bibliotecas de cDNA do projeto ENCODE Caltech RNA-seq

Libraries. O número de regiões exônicas (curva preta) representa a contagem de GENE IDs e o número de

regiões intrônicas representa a contagem de íntrons pertencentes a GENE IDs (curva vermelha). No eixo X estão representados os números de tags referentes às 7 bibliotecas do projeto.

Observamos a saturação do número de regiões codificadoras detectadas nestas bibliotecas, que correspondem a cerca de 12.600 genes (Figura 9, curva preta). Por outro lado, observamos que o número de regiões intrônicas não se encontra saturada na profundidade de cobertura atingida com o sequenciamento destas bibliotecas. Mesmo após sequenciar cerca de 40 milhões de tags, a curva cumulativa indica que o número de regiões intrônicas detectadas encontra-se longe da saturação (Figura 9, linha vermelha). A saturação alcançada nos experimentos de RNA-seq foi insuficiente para detectar o conjunto de transcritos intrônicos expressos nas 7 linhagens. Este resultado explica, ao menos em parte, a menor porcentagem de sobreposição observada entre os lncRNAs detectados em nossos experimentos e transcritos intrônicos detectados nos experimentos de RNA-seq em comparação a sobreposição observada para os mRNAs. Outra possibilidade de causa para a baixa sobreposição de coordenadas entre os lncRNAs intrônicos e RNAs sequenciados a partir das 7 bibliotecas do projeto ENCODE Caltech

RNA-seq Libraries, é o fato de que os ncRNAs possuem um padrão de expressão com maior especificidade em relação ao tipo de tecido/tipo celular que os mRNAs em geral (Cabili et al., 2011). Este fator também deve contribuir para a menor proporção de lncRNAs em relação aos mRNAs expressos nas 3 linhagens testadas que são confirmados nas 7 bibliotecas de RNA-seq analisadas.

4.2 LncRNAs intrônicos são expressos em níveis mais baixos do que mRNAs