• No results found

DEL 2 KONTEKSTER I DET OFFENTLIGE ROM

9 AUTONOM KUNST - FORELDET IDEOLOGI?

9.5. KONKLUSJON : PRIVATISERING OG POPULARISERING SOM

9.5.2. Privatisering og popularisering: Kunstens nye spilleregler

Objetivando uma melhor avaliação dos dados aqui apresentados, os resultados propostos foram comparados com os principais trabalhos da área de predição de AMPs, conforme Tabela 14 e Figura 31. A seguir são ressaltadas diferenças importantes na seleção de sequências, estruturas, bancos de dados e metodologias empregadas.

Tabela 14: Comparação entre o método ANFIS com características multidimensionais e outros

algoritmos. Alguns estudos não detalharam os valores de MCC e foram, portanto estimados para efeito de comparação Algoritmo MCC Banco de dados Referências Conjunto de

treinamento Conjunto de validação Conjunto de teste

HMM ~ 0,98 (geral) AMPER (FJELL et al., 2007) RNA / 3D QSAR ~ 0,88 (geral) RANDOM (FJELL et al., 2009)

RNA / QSAR ~ 0,6 (geral) CAMEL JANKOVIC, 2004) (CHERKASOV; DA 0,75 - 0,74 CAMP (THOMAS et al., 2010) RF 0,86 - 0,86 CAMP (THOMAS et al., 2010) SVM 0,88 - 0,82 CAMP (THOMAS et al., 2010) SVM - - 0,84 AntiBP2 (LATA et al., 2010) ANFIS

(características

físico-químicas) 0,94 (geral) APD2

(FERNANDES et al., 2012) RNA 0,85 (geral) APD2 (FERNANDES et al., 2012) ANFIS

Figura 31 – Comparação dos valores de MCC entre os principais trabalhos da área de predição de peptídeos antimicrobianos

A metodologia empregada pelo AntiBP2 (LATA et al., 2010) utilizou o APD como banco de dados principal de peptídeos antimicrobianos, extraindo do mesmo 999 sequências únicas. Neste trabalho, para a construção do banco de dados de peptídeos não antimicrobianos foram gerados peptídeos aleatórios e submetidos ao MitPred (KUMAR et al., 2006), que atuou como um filtro para proteínas não secretadas e, portanto de localização intracelular, assumindo a premissa que os AMPs podem ser secretados para o meio extracelular (BALS, 2000). Para isto, foi utilizada uma validação cruzada e um classificador SVM, sempre com características derivadas das sequências de aminoácidos dos peptídeos, mais especificamente através de padrões binários definidos em função de distribuições estatísticas de ocorrência de aminoácidos (na extremidade N-terminal, C-terminal e no peptídeo inteiro). A máxima acurácia obtida foi de 92,14 % e o máximo MCC de 0,843. A não utilização de características físico-químicas das sequências de aminoácidos nem de características derivadas da estrutura da molécula, fatores importantes na definição da sua função, pode ter impactado negativamente os resultados obtidos pelo método AntiBP2 (LATA et al., 2010). O método ANFIS com características multidimensionais como dados de entrada da rede, apresentado no presente estudo, claramente ultrapassa o AntiBP2 nos quesitos sensibilidade, especificidade, acurácia e MCC, conforme mostrado na Tabela 15 e Figura 32.

Tabela 15: Comparação entre o método ANFIS com características multidimensionais e método

AntiBP2 (LATA et al., 2010) com características estatísticas derivadas das sequências de aminoácidos como dados de entrada na rede

ANFIS (características multidimensionais) AntiBP2 (LATA et al., 2010)

Sensibilidade (%) 99 90,59

Especificidade (%) 100 93,69

Acurácia (%) 99,5 92,14

MCC 0,989 0,843

Figura 32 – Comparação entre a metodologia AntiBP2 (LATA et al., 2010) e ANFIS com características multidimensionais como características de entrada. Há uma clara performance superior obtida pela metodologia ANFIS

O método CAMP (THOMAS et al., 2010) utilizou o NCBI (BENSON et al., 1990) como fonte de peptídeos antimicrobianos através de consultas com as palavras-chave “antimicrobial”, “antibacterial”, “antifungal”, “antiviral”, “antitumor”, “anticancer” e “antiparasitic peptides” e posterior validação na literatura. Para compor o banco de dados negativo foi selecionado, de forma aleatória, da base de dados UniProt (CONSORTIUM, 2011), as proteínas que sejam “não secretadas” e que não tenham a referência “antimicrobiana”. O software CD-Hit foi utilizado para eliminar as sequências com mais do que 90% de identidade no conjunto de dados negativo. Os conjuntos de dados foram divididos aleatoriamente em 70% para treinamento e 30% para testes. O referido método utilizou características físico- químicas e algumas características estruturais de aminoácidos mas não considerou a molécula inteira. Os métodos de predição utilizados foram Random Forests (RF),

com acurácia global de 93,2% e MCC de 0,86, Discriminant Analysis (DA) com acurácia global de 87,5% e MCC de 0,75 e Support Vector Machine (SVM) com acurácia global de 91,5% e MCC de 0,88. O método CAMP (THOMAS et al., 2010) não utilizou nenhum algoritmo para validar os peptídeos que não tenham função antimicrobiana, nem testes estatísticos para verificar a separabilidade dos descritores selecionados e sua adequação como classificadores de AMPs, fatores que podem ter impactado negativamente no desempenho global do método. O método ANFIS com características multidimensionais como dados de entrada da rede, apresentado neste trabalho, supera o método CAMP nos quesitos acurácia e MCC, conforme mostrado na Tabela 16 e Figura 33.

Tabela 16: Comparação entre rede ANFIS com características multidimensionais e método CAMP

com características físico-químicas e características estruturais de aminoácidos como dados de entrada na rede

Algoritmo ANFIS (características multidimensionais) CAMP

DA RF SVM

Acurácia (%) 99,5 87,5 93,2 91,5

MCC 0,989 0,75 0,86 0,88

Figura 33 – Comparação entre a metodologia CAMP e ANFIS com características multidimensionais. O método proposto neste estudo obtém resultados superiores à metodologia CAMP

O método CAMEL-s (CHERKASOV; JANKOVIC, 2004) utilizou descritores indutivos, que são normalmente baseados em efeitos indutivos, efeitos estéricos, eletronegatividade indutiva e capacitância molecular de peptídeos, para investigar a potência antibacteriana utilizando a técnica QSAR. Uma rede neural artificial (RNA) com 20 neurônios de entrada, 8 neurônios na camada oculta e 1 neurônio de saída, é utilizada como ferramenta de classificação em 101 peptídeos sintéticos. Foi utilizado o método de validação cruzada com 90% do total de peptídeos para o conjunto de treinamento e 10% para o conjunto de testes e foi obtido 79% de acurácia para o conjunto de treinamento e 80% para o conjunto de testes, conforme Tabela 17 e Figura 34. A construção do banco de dados de AMPs com variações a partir do banco Camel0 representa pouca variabilidade de sequências de aminoácidos, causando um efeito negativo para o aprendizado da RNA empregada, limitando sua acurácia. O método ANFIS com características multidimensionais como dados de entrada da rede ,apresentado neste trabalho, supera o método CAMEL-s na acurácia dos conjuntos de treinamento e testes.

Tabela 17: Comparação entre rede ANFIS com características multidimensionais e método CAMEL

descritores indutivos e metodologia QSAR como dados de entrada em uma RNA.

Conjuntos

ANFIS (características

multidimensionais) CAMEL-s (CHERKASOV; JANKOVIC, 2004) Acurácia (%) Acurácia (%)

Treinamento 99 79

Figura 34 – Comparação entre a metodologia utilizada no banco de dados CAMEL-s e ANFIS com características multidimensionais. A performance da rede ANFIS supera o CAMEL-s nos conjuntos de treinamento e teste

O método assim chamado RANDOM (FJELL et al., 2009) utiliza descritores indutivos (CHERKASOV; JANKOVIC, 2004) para uma abordagem utilizando a técnica de 3D QSAR em pequenos peptídeos catiônicos (com tamanho fixo de 9 aminoácidos) seguido de uma RNA com 44 neurônios de entrada, 1 camada oculta com 10 neurônios e 1 neurônio de saída. Foram utilizados 44 descritores em 2 conjuntos de 1400 peptídeos e testados em seguida em um conjunto de aleatório de 100.000 peptídeos, onde 94% dos 50 mais prováveis de possuírem atividade antimicrobiana apresentaram atividade comprovada em testes in vitro. A metodologia empregada para medir a acurácia do método utilizado diferiu dos demais por se tratar de um trabalho em que houve validação em laboratório e os resultados foram divididos em relação a graus de atividade antimicrobiana. Os valores apresentados no método RANDOM tem altos valores de desvio padrão revelando um limitação na abordagem com os descritores quantitativos utilizados e os resultados são limitados a um subconjunto do universo de peptídeos antimicrobianos, aqueles com tamanho fixo de 9 aminoácidos. A comparação com o método ANFIS com características multidimensionais como dados de entrada não pode ser feita de forma completa pois a metodologia proposta (ANFIS) não avaliou o desempenho dos AMPs putativos em laboratório. Porém, a comparação de acurácia entre os métodos, conforme Tabela 18, demonstra que a rede ANFIS otimiza os recursos para testes em laboratório com candidatos mais prováveis de possuírem

atividade antimicrobiana, além de avaliar peptídeos putativos de tamanhos diversos. Na Tabela 18, a sigla Q1 representa as 50 maiores posições no primeiro quartil, considerados mais prováveis de possuírem atividade em relação ao controle. A sigla Q2 representa 50 posições no início do segundo quartil, considerados prováveis de possuírem atividade em relação ao controle. A sigla Q3 representa as 50 posições no final do terceiro quartil, considerados prováveis de possuírem menos atividade em relação ao controle. A sigla Q4 representa as 50 posições no final do quarto quartil, considerados mais prováveis de possuírem menos atividade em relação ao controle.

Tabela 18: Comparação entre rede ANFIS com características multidimensionais como dados de

entrada na rede e método RANDOM com descritores indutivos e metodologia 3D QSAR como dados de entrada na rede

Conjunto Acurácia (%) Referência

Teste 100 ANFIS (características multidimensionais)

Q1 94 RANDOM (FJELL et al., 2009)

Q2 64 RANDOM (FJELL et al., 2009)

Q3 88 RANDOM (FJELL et al., 2009)

Q4 100 RANDOM (FJELL et al., 2009)

O método AMPER (FJELL et al., 2007) utilizou 146 HMMs para peptídeos maduros e 40 HMMs para peptídeos putativos com o objetivo de reconhecer classes individuais de AMPs e obteve até 99% de acurácia. O banco de dados de AMPs foi criado a partir do AMSDb (http://www.bbcm.units.it/~tossi/) com 890 sequências, abrangendo as mais importantes classes de AMPs. Destas, apenas 767 sequências apresentaram correspondências no UniProt (http://www.uniprot.org/) como peptídeos maduros e regiões propeptídicas. Em seguida, através de buscas iterativas no Swiss-Prot por AMPs desconhecidos, obteve-se um conjunto final de 1045 peptídeos maduros e 253 propeptídeos (FJELL et al., 2007). Não foi criado um banco de dados negativo de AMPs, pois, a metodologia de HMM não utiliza o mesmo. Houve uma grande variação de performance na predição de AMPs, variando de 0% a 100%. A sensibilidade média para clusters de peptídeos maduros foi de 82% com desvio padrão de 23%. A especificidade e acurácia foram ambas de 99,2% com desvio padrão de 1,3%. Para propeptídeos, a especificidade média e a acurácia foram de 98,8% com desvio padrão de 2,7%. A utilização apenas de similaridade de

sequências e posterior agrupamento em clusters deixou de considerar aspectos físico-químicos e estruturais dos AMPs que são de fundamental importância na definição de sua função. Uma comparação entre a metodologia ANFIS com características multidimensionais como dados de entrada e o método AMPER é feita na Tabela 19.

Tabela 19: Comparação entre rede ANFIS com características multidimensionais como dados de

entrada na rede e método AMPER que utiliza a técnica de HMM com similaridade de sequências

ANFIS (características multidimensionais) AMPER (FJELL et al., 2007)

Conjunto Acurácia (%) Acurácia (%)

Treinamento 99,5 99,2

Teste 100 98,8

O método ANFIS somente com características físico-químicas (FERNANDES et al., 2012), utilizando a mesma metodologia e dados deste trabalho, considerando apenas os aspectos físico-químicos derivados das sequências de aminoácidos dos peptídeos, obteve resultados muito expressivos, com valores de MCC superior a maioria dos outros métodos de predição de AMPs, conforme Tabela 14 e Figura 31. A camada fuzzy representa um fator decisivo no aumento da performance do método, fato observado pela performance da mesma metodologia somente com RNA sem a camada fuzzy com redução de cerca de 10% nos valores de MCC (Tabela 14). Observa-se que há um aumento de RMSE e diminuição dos valores de MCC (Tabela 20) no modelo ANFIS com características físico-químicas se comparado com o modelo ANFIS com características multidimensionais.

Tabela 20: Comparação entre redes ANFIS com características multidimensionais e com

características físico-químicas como dados de entrada na rede

ANFIS (características multidimensionais) ANFIS (características físico- químicas)

Conjuntos RMSE MCC RMSE MCC

Estimação 0,0693 0,980 0,1991 0,9269

Validação 0,1054 1 0,2090 0,8868

Teste 0,0960 1 0,1798 1,0000

Este trabalho apresentou excelentes resultados quando comparados com os métodos já publicados. O modelo ANFIS com características multidimensionais apresenta uma acurácia global de 99,5%, um RMSE de 0,0853 e um MCC de 0,989.

A metodologia proposta no presente estudo não utiliza o banco de dados UniProt (http://www.uniprot.org) (JAIN et al., 2009; CONSORTIUM, 2011) para a construção do conjunto de dados de peptídeos não-antimicrobianos, mesmo com a realização de uma seleção com exclusão de palavras-chave relacionadas a peptídeos antimicrobianos, pois, o simples fato de não se mencionar a atividade antimicrobiana, não significa que os peptídeos tenham sido testados especificamente para se comprovar a sua atividade antimicrobiana negativa, aumentando assim a imprecisão do banco de dados negativo. A metodologia empregada neste estudo para se construir o banco de dados de peptídeos não- antimicrobianos utilizou o Phobius (KALL et al., 2007), um software baseado na técnica de HMM de predição combinada de peptídeos de sinal e peptídeos transmembranares, como filtro principal de garantia estatística de uma localização intracelular do peptídeo e portanto uma presumida função não antimicrobiana (BALS, 2000; LATA et al., 2007; LATA et al., 2010; PORTO et al., 2010). Foi utilizado como premissa que um peptídeo antimicrobiano pode atuar criando poros na membrana celular de um organismo alvo e, portanto, são secretados da célula de origem e não atuam como peptídeo de sinal ou peptídeo transmembranar (BALS, 2000; PORTO et al., 2010). O conjunto de dados de peptídeos antimicrobianos e não antimicrobianos resultante se tornaram conjuntos mais disjuntos e apresentaram valores p menores, conforme Tabela 1 e Tabela 4.

A quantidade de potenciais características de entrada para um sistema de predição de AMPs é muito grande e as escolhas de como selecionar as características físico-químicas e estruturais apropriadas a predição de atividade bem como uma abordagem qualitativa ou quantitativa e construção do banco de dados negativo para a aprendizagem de máquina, mesmo com separabilidade de classes estatisticamente suficientes, tem um grande impacto na acurácia e no MCC da predição. As classes de características escolhidas podem não apenas serem relacionadas a funções antimicrobianas mas também a outras funções físico- químicas, resultando em altos valores de acurácia mas também altos valores de desvio padrão e um overfitting a um conjunto específico de dados.

Dos oito parâmetros físico-químicos selecionados, sete mostraram diferenças estatísticas significantes entre o banco de dados positivo e negativo de AMPs. Eles são descritores eficientes de função antimicrobiana e permitem a obtenção de altos valores de acurácia (TORRENT et al., 2011). Na metodologia proposta foram

selecionados dois descritores físico-químicos de acordo com a heurística de seleção de dados de entrada na rede ANFIS (JANG, 1996) e foram observadas as mesmas características descritas no trabalho de Torrent e colaboradores (2011), onde não- AMPs tendem a possuir um tamanho maior em média se comparados com AMPs. Entretanto, neste estudo os AMPs e não-AMPs diferem significativamente não apenas na variância, mas também na média, possivelmente resultado da metodologia empregada para criar o banco de dados de não-AMPs. O comprimento de sequência de aminoácidos tem importância fundamental na modulação da inserção do peptídeo na membrana e é um parâmetro importante na geração de-

novo de AMPs (SHAI, 2002; DESLOUCHES et al., 2005). A agregação in vitro ou em

solução apresentou valores de média e de variância significativamente menores para AMPs se comparado a não-AMPs, corroborando com a hipótese que os AMPs tendem a minimizar sua agregação em solução e não-AMPs apresentam uma maior agregação e uma maior dispersão em relação à média provavelmente devido a suas funções biológicas diversas, resultante da metodologia empregada para a construção do banco de dados de não-AMPs.

Uma das hipóteses do modo de ação de AMPs aparentemente pode ser relacionada à ruptura da membrana celular de bactérias através de interações eletrostáticas e hidrofóbicas. As forças hidrofóbicas mediariam a inserção dos AMPs na bicamada lipídica, formando assim poros organizados ou não na membrana celular enquanto que as interações eletrostáticas com os grupos fosfolipídicos da membrana celular levariam a sua ruptura (CHERKASOV; JANKOVIC, 2004). A utilização de descritores derivados da estrutura da molécula, tais como momento dipolar e hidrofobicidade média das áreas hidrofóbicas, fatores importantes na estrutura da molécula comprovadamente relacionados a sua função, minimizou a variância da acurácia do algoritmo de predição, aumentou significativamente o seu valor e definiu a importância real da utilização de características derivadas da estrutura para melhorar a predição de AMPs.

Todos os dez parâmetros derivados das estruturas dos AMPs e não-AMPs mostraram diferenças estatísticas significativas entre o banco de dados positivo e negativo. Até o presente momento não é conhecido nenhum método que utilize os referidos descritores para a predição de função antimicrobiana, sendo este trabalho pioneiro na utilização dos mesmos. Na metodologia proposta foram selecionados dois descritores estruturais de acordo com a heurística de seleção de dados de

entrada na rede ANFIS (JANG, 1996) e todos os outros não foram utilizados neste estudo para fins de predição de função antimicrobiana. O melhor par obtido foi o módulo do momento dipolar e a hidrofobicidade média das áreas hidrofóbicas, possivelmente devido a possuírem menores valores p e juntos terem atingido um mínimo local no treinamento da rede em backpropagation. Os outros descritores estruturais permanecem importantes na atividade dos peptídeos mas não se mostraram relevantes para o aprendizado de máquina abordado no modelo proposto. A associação de áreas hidrofóbicas com estruturas de conformação secundária de peptídeos, apesar de estatisticamente significativa, não se mostrou determinante na distinção entre AMPs e não-AMPs, fato que pode ser investigado em mais detalhes em trabalhos futuros (YOUNT; YEAMAN, 2004).

Deste ponto foram utilizados os melhores pares de características físico- químicas e de características estruturais para mais uma redução de dimensionalidade através de outra rodada de seleção de dados de entrada (combinação entre eles) e verificação do menor RMSE em uma época de treinamento. O melhor par obtido foi o módulo do momento dipolar e a agregação in

vitro (Tabela 6 e Figura 19). Em seguida foi realizada uma detecção de outliers

baseada em um algoritmo k-means semi-supervisionado com o objetivo de oferecer um melhor aprendizado à rede ANFIS. Mesmo com a detecção de outliers apenas no conjunto de estimação, o desempenho da rede ANFIS é bastante adequado. Por utilizar um procedimento de aprendizado híbrido, um sistema de inferência fuzzy utiliza regras se-então para capturar as maneiras imprecisas de funcionamento e funções de pertinência para a etapa de fuzzificação, com o objetivo de modelar de forma apropriada as fronteiras mal definidas do sistema e gerar um mapeamento de entrada e saída para a predição antimicrobiana. As regras se-então (dados não mostrados) e a superfície de mapeamento entrada-saída (Figura 35) demonstram a habilidade do modelo proposto em descrever o comportamento de um sistema complexo. Na Figura 35, o eixo vertical representa a atividade antimicrobiana predita. As superfícies em amarelo e vermelho indicam onde o modelo prediz que o peptídeo em estudo é um AMP. Estas áreas estão associadas a valores menores de agregação in vitro e o momento dipolar tem um efeito amplificador da atividade antimicrobiana até um ponto de saturação e inibição da mesma. Em maiores valores de agregação in vitro o momento dipolar pode acentuar a inibição da atividade antimicrobiana ou não influenciar, quando as moléculas estão agregadas em

solução, elas majoritariamente não interagem com a parede celular da bactéria e portanto o momento dipolar também fica contido na agregação. A agregação in vitro pode funcionar como uma barreira binária para os peptídeos, interrompendo sua função antimicrobiana como resultado de uma agregação em solução.

O índice de agregação in vitro extraído do parâmetro AGG do software TANGO (FERNANDEZ-ESCAMILLA et al., 2004; LINDING et al., 2004; ROUSSEAU et al., 2006) foi utilizado de forma pioneira na predição e classificação de AMPs por Torrent e colaboradores (2011) com uma acurácia global de 89,2%. O algoritmo TANGO mede a tendência de agregação de acordo com uma distribuição de Boltzmann de fase e espaço, abrangendo os estados estruturais de random coil, β- turn, α-hélice, agregação de folhas-β e agregação de α-hélice. O módulo do

momento dipolar foi utilizado de forma pioneira neste trabalho a partir do DIPOL (FELDER et al., 2007), que utiliza como entrada arquivos de estruturas de proteínas no formato PDB.

Figura 35 – Superfície fuzzy de mapeamento entrada-saída da rede ANFIS com módulo do momento dipolar e agregação in vitro como parâmetros de entrada

6

CONCLUSÃO

Os peptídeos antimicrobianos são moléculas de defesa amplamente distribuídas em diversas espécies e representam uma alternativa promissora para a solução do problema da resistência microbiana a antibióticos. O tempo e os recursos necessários para se testar um peptídeo antimicrobiano putativo, tornam as simulações computacionais baseadas na sequência e estrutura do peptídeo uma solução extremamente atrativa.

A indústria farmacêutica e a comunidade científica dispõem atualmente de diversas ferramentas computacionais de predição e bancos de dados de peptídeos antimicrobianos para efetuar diversas simulações e com isso obter conjuntos reduzidos com os melhores candidatos para testes in vitro e in vivo, otimizando assim os recursos na obtenção de novos AMPs. Apesar das ferramentas de predição almejarem a classificação mais ampla e oferecerem predição de propósito geral, a escolha da melhor e mais adequada ferramenta de predição será baseada nas características mais determinantes dos AMPs e na proximidade do banco de dados utilizado com a categoria de AMPs pesquisada. Qualquer AMP candidato deve ser submetido a maior quantidade possível de ferramentas de predição e em seguida ter os seus resultados comparados. Um sistema de meta predição, que reúna em um único web site a submissão e o resultado da predição de diversas