Na realização dos testes de enriquecimento utilizou-se ligandos falsos obtidos a partir da base de dados DUD, Directory of Useful Decoys. [56] Os conjuntos de ligandos falsos que se encontram nesta base de dados estão organizados por famílias de enzimas, não se encontrando disponíveis ligandos falsos para todas as famílias estudadas no presente trabalho.
Para os casos em que não foi possível encontrar ligandos falsos através desta base de dados, recorreu-se ao programa ROCS, Rapid Overlay of Chemical Structures, para efectuar o rastreio da base de dados NCI, National Cancer Institute. Este rastreio foi efectuado com o intuito de obter um conjunto de compostos com características semelhantes aos ligandos conhecidos para cada enzima em questão e, que pudessem ser utilizados como ligandos falsos nos testes de enriquecimento.
O programa ROCS foi concebido para realizar rastreios de base de dados tridimensionais em larga escala utilizando um método de sobreposição que encontra a similaridade entre compostos de uma forma não intuitiva. Este programa baseia-se no método de sobreposição baseada na estrutura. Desta forma, as moléculas são alinhadas através de um processo de optimização de corpo sólido que maximiza o volume de sobreposição entre estas. O ROCS utiliza apenas os átomos pesados do ligando, sendo os hidrogénios ignorados. Como, neste contexto, o tamanho e o volume estão muito relacionados, o procedimento de maximização do volume de sobreposição do volume constitui um excelente método para aumentar a compreensão acerca das formas
Metodologia
46 O programa ROCS é primeiramente um método baseado na forma, utilizando
definições especificadas da química que podem ser incluídas na sobreposição e na análise da similaridade, o que facilita a identificação dos compostos que são semelhantes, quer em termos de forma como de química.
Para realizar o rastreio utilizando o ROCS é necessário escolher uma base de dados para efectuar a procura dos compostos. Neste caso utilizou-se a base de dados do NCI que é constituída por um elevado número de compostos (260071), pertencentes a diversas famílias químicas. É também necessário um composto para servir de referência, ou seja, um composto com base no qual se pretenda efectuar a procura. Para esta situação, utilizou-se como composto de referência um dos ligandos conhecidos para cada enzima em questão.
Os resultados que se obtêm através do ROCS são ordenados de acordo com a similaridade, sendo possível ao utilizador seleccionar o número máximo de melhores resultados que pretende obter. [57]
4.2. Relação Quantitativa entre a Estrutura e a Actividade (QSAR)
O QSAR é a relação quantitativa entre a estrutura química e as suas actividades físicas, químicas ou biológicas. Este tipo de estudos é de grande importância para as áreas da química e da bioquímica e constitui uma das mais importantes aplicações das técnicas de modelação. [58][59]
Esta metodologia baseia-se na transformação da procura de compostos com propriedades desejadas utilizando a intuição química e a experiência numa forma quantificada matematicamente e computorizada. Uma vez obtida correlação entre a estrutura e a actividade, é possível efectuar o rastreio de forma a escolher estruturas com as propriedades desejadas. Após esta selecção, os compostos que se apresentarem como sendo os mais promissores podem ser escolhidos para serem sintetizados e testados laboratorialmente.
A obtenção de boas correlações entre a estrutura e a actividade não é fácil, sendo importante utilizar os descritores moleculares adequados. Muitos dos descritores reflectem propriedades moleculares simples, podendo assim melhorar a compreensão acerca da natureza físico-química da actividade em questão. A qualidade dos modelos
Metodologia
de QSAR depende ainda da qualidade e do tipo de dados e é apenas válido para estruturas análogas à dos compostos usados para construir o modelo. [58][59]
É importante correlacionar as estruturas químicas dos fármacos com as suas actividades farmacológicas de interesse, uma vez que os custos do desenvolvimento de novos fármacos são elevados, a previsão segura da actividade dos compostos antes da sua síntese é de grande interesse para os laboratórios de síntese. [59]
O método QSAR envolve o reconhecimento de que a molécula é realmente a distribuição tridimensional de propriedades. As propriedades mais importantes são as estéricas (como a forma e o volume), as electrónicas (como a carga eléctrica e o potencial electrostático) e as propriedades lipofílicas (como são as secções polares e não polares das moléculas, sendo geralmente representadas pelo coeficiente de partição octanol-água, log P).
Esta metodologia envolve diversos passos-chave: 1) Conversão das estruturas moleculares em descritores matemáticos que abrangem as propriedades principais das moléculas e que sejam relevantes para a actividade em estudo. 2) Selecção dos melhores descritores a partir de um grande número de descritores acessíveis. 3) Relacionar os descritores moleculares com as propriedades. 4) Validação do modelo para determinar a sua capacidade de previsão e se este apresenta uma boa previsão quando aplicado a novas moléculas, que não estejam incluídas no conjunto de dados utilizado para criar o modelo (o conjunto de teste). [60]
O QSAR aplica diversos métodos como a Regressão Linear Múltipla (MLR),
Partial Least Squares (PLS), Redes Neuronais (NN), Support Vector Machine (SVM) e
a Programação da Expressão de Genes (GEP), entre outros.
A Regressão Linear Múltipla (MLR) é um dos métodos mais antigos que têm sido utilizados na construção de modelos de QSAR, continuando a ser muito utilizado na actualidade. A vantagem deste método é o facto de ser uma expressão matemática de forma simples e facilmente interpretável. No entanto, este método é vulnerável em relação aos descritores que estão intercorrelacionados, fazendo com que seja incapaz de decidir que conjuntos podem ser mais significativos para o modelo. [61]
Com base na regressão linear múltipla foram desenvolvidas novas metodologias como o método da melhor regressão linear múltipla (BMLR), o método heurístico (HM), o algoritmo genético baseado na regressão linear múltipla (GA-MLR), entre
Metodologia
48