• No results found

DEL 2 KONTEKSTER I DET OFFENTLIGE ROM

7 DEN STATLIGE KONTEKSTEN - KUNSTENS AVHENGIGHET

8.3. K RITIKERROLLEN - BINDELEDDET MELLOM DET BREDE PUBLIKUMET OG

Utilizando apenas os descritores selecionados na etapa anterior, módulo do momento dipolar e agregação in vitro, os conjuntos de AMPs e não-AMPs foram agrupados e associados com o valor 1 para AMPs e com o valor 0 para não-AMPs. Foi realizada uma divisão pseudoaleatória criando um conjunto de treinamento com 138 elementos (72%) e um conjunto de testes com 53 elementos (28%) totalizando os 191 elementos dos dois conjuntos originais. Em seguida o conjunto de treinamento foi dividido de forma pseudoaleatória em conjunto de estimação com 100 elementos (52%) e conjunto de validação com 38 elementos (20%), conforme Apêndice E.

Os conjuntos de estimação, validação e testes foram então submetidos à rede ANFIS com variações de função de pertinência e épocas de treinamento, observando-se o RMSE de validação (MITCHELL, 1997) e as acurácias de estimação, validação e testes. A Tabela 7 e a Figura 20 mostram o desempenho da rede ANFIS com duas funções de pertinência do tipo trapezoidal com variações de épocas de treinamento de 1 a 10000 épocas. Com 192 épocas a rede apresenta o menor RMSE de validação, que mede a acurácia de generalização da rede ANFIS, ou seja, a sua resposta a dados desconhecidos. A pequena quantidade de funções de pertinência limitam a habilidade da rede em reconhecer idiossincrasias dos dados de entrada, mantendo as acurácias de estimação, validação, testes e total com valores constantes.

Tabela 7: Desempenho da rede ANFIS com duas funções de pertinência do tipo trapezoidal.

Observa-se que com 192 épocas acontece o menor RMSE de validação

Quantidade de funções de pertinência Tipo de função de pertinência Épocas de treinamento Acurácia (%) RMSE Validação Estimação Validação Testes Total

2 TRAPMF 1 99 97,4 96,2 97,9 0,1823 2 TRAPMF 10 99 97,4 96,2 97,9 0,1822 2 TRAPMF 100 99 97,4 96,2 97,9 0,1807 2 TRAPMF 192 99 97,4 96,2 97,9 0,1691 2 TRAPMF 500 99 97,4 96,2 97,9 0,1730 2 TRAPMF 1000 99 97,4 96,2 97,9 0,1728 2 TRAPMF 10000 99 97,4 96,2 97,9 0,1728

Figura 20 – Gráfico de acurácia da rede ANFIS e o RMSE de validação da rede para duas MF do tipo trapezoidal. Observa-se uma inflexão no RMSE de validação em torno de 192 épocas de treinamento

A Tabela 8 e Figura 21 mostram o desempenho da rede ANFIS com três funções de pertinência do tipo trapezoidal com variações de épocas de treinamento de 1 a 10000 épocas. A partir de 500 épocas de treinamento, o RMSE da rede atinge um valor baixo e estável. A acurácia de estimação e validação também atingem valores maiores a partir das 500 épocas de treinamento.

Tabela 8: Desempenho da rede ANFIS com três funções de pertinência do tipo trapezoidal. Observa-

se que a partir de 500 épocas acontece o menor RMSE de validação e as maiores acurácias da rede

Quantidade de funções de pertinência Tipo de função de pertinência Épocas de treinamento Acurácia (%) RMSE Validação Estimação Validação Testes Total

3 TRAPMF 1 99 94,7 98,1 97,9 0,1799 3 TRAPMF 10 99 94,7 98,1 97,9 0,1799 3 TRAPMF 100 99 94,7 98,1 97,9 0,1802 3 TRAPMF 192 99 94,7 98,1 97,9 0,1853 3 TRAPMF 500 100 97,4 98,1 99 0,1196 3 TRAPMF 1000 100 97,4 98,1 99 0,1196 3 TRAPMF 10000 100 97,4 98,1 99 0,1196

Figura 21 – Gráfico de acurácia da rede ANFIS e o RMSE de validação da rede para três MF do tipo trapezoidal. Observa-se que a partir de 500 épocas acontece o menor RMSE de validação e as maiores acurácias da rede

A Tabela 9 e Figura 22 mostram o desempenho da rede ANFIS com quatro funções de pertinência do tipo trapezoidal com variações de épocas de treinamento de 1 a 10000 épocas. Observa-se que com 192 épocas de treinamento a rede apresenta o valor mais baixo de RMSE de validação, a maior média e menor desvio padrão entre as acurácias de estimação, validação e testes, mostrando uma boa resposta a dados não apresentados à rede. Os valores mais altos da acurácia de estimação a partir de 192 épocas de treinamento acontecem devido ao overfitting da rede.

Tabela 9: Desempenho da rede ANFIS com quatro funções de pertinência do tipo trapezoidal.

Observa-se que em 192 épocas acontece o menor RMSE de validação e as maiores acurácias da rede Quantidade de funções de pertinência Tipo de função de pertinência Épocas de treinamento Acurácia (%) RMSE Validação Estimação Validação Testes Total

4 TRAPMF 1 99 100 98,1 99 0,1074 4 TRAPMF 10 99 100 98,1 99 0,1073 4 TRAPMF 100 99 100 98,1 99 0,1066 4 TRAPMF 192 99 100 100 99,5 0,1054 4 TRAPMF 500 100 97,4 98,1 99 0,1689 4 TRAPMF 1000 100 97,4 98,1 99 0,1684 4 TRAPMF 10000 100 97,4 98,1 99 0,1684

Figura 22 – Gráfico de acurácia da rede ANFIS e o RMSE de validação da rede para quatro MF do tipo trapezoidal. Observa-se que em 192 épocas acontece o menor RMSE de validação e as maiores acurácias da rede.

A Tabela 10 e Figura 23 mostram o desempenho da rede ANFIS com cinco funções de pertinência do tipo trapezoidal com variações de épocas de treinamento de 1 a 10000 épocas. Observa-se que os valores de RMSE de validação são uma ordem de grandeza maior se comparados com configurações com menos funções de pertinência. A grande quantidade de funções de pertinência pode exagerar nas considerações dos detalhes dos dados, perdendo poder de generalização. Após 500 épocas de treinamento há um aumento da acurácia de testes muito em função do

overfitting aos dados apresentados.

Tabela 10: Desempenho da rede ANFIS com cinco MF do tipo trapezoidal. Observa-se que a partir

de 500 épocas acontece o menor RMSE de validação e as maiores acurácias da rede acontecem em torno de 200 épocas Quantidade de funções de pertinência Tipo de função de pertinência Épocas de treinamento Acurácia RMSE Validação Estimação Validação Testes Total

5 TRAPMF 1 100 92,1 96,2 97,4 3,0286 5 TRAPMF 10 100 92,1 96,2 97,4 3,0312 5 TRAPMF 100 100 92,1 96,2 97,4 3,1144 5 TRAPMF 192 100 92,1 98,1 97,9 2,8559 5 TRAPMF 500 100 92,1 94,3 96,9 0,2709 5 TRAPMF 1000 100 92,1 96,2 97,4 0,2658 5 TRAPMF 10000 100 92,1 96,2 97,4 0,2658

Figura 23 – Gráfico de acurácia da rede ANFIS e o RMSE de validação da rede para cinco MF do tipo trapezoidal. A partir de 500 épocas acontece o menor RMSE de validação e as maiores acurácias da rede acontecem em torno de 200 épocas

A Tabela 11 e Figura 24 mostram o desempenho da rede ANFIS com duas funções de pertinência em forma de sino com variações de épocas de treinamento de 1 a 10000 épocas. Observa-se que os valores de RMSE de validação apresentam-se baixos até 10 épocas e após 10000 épocas. A convergência de baixos valores de RMSE de validação com acurácia é devido ao overfitting da rede.

Tabela 11: Desempenho da rede ANFIS com duas MF em forma de sino. Observa-se que até 10

épocas acontece o menor RMSE de validação e após 10000 épocas de treinamento acontecem as maiores acurácias da rede

Quantidade de funções de pertinência Tipo de função de pertinência Épocas de treinamento Acurácia RMSE Validação Estimação Validação Testes Total

2 GBELLMF 1 99 97,4 96,2 97,9 0,1774 2 GBELLMF 10 99 97,4 96,2 97,9 0,1802 2 GBELLMF 100 99 97,4 96,2 97,9 0,3192 2 GBELLMF 500 99 97,4 96,2 97,9 0,3257 2 GBELLMF 1000 99 97,4 96,2 97,9 0,3271 2 GBELLMF 10000 99 97,4 98,1 98,4 0,2997

Figura 24 – Gráfico de acurácia da rede ANFIS e o RMSE de validação da rede para duas MF em forma de sino. Observa-se que até 10 épocas acontece o menor RMSE de validação e após 10000 épocas de treinamento as maiores acurácias da rede

A Tabela 12 e Figura 25 mostram o desempenho da rede ANFIS com três funções de pertinência do em forma de sino com variações de épocas de treinamento de 1 a 10000 épocas. Observa-se que os valores de RMSE de validação apresentam-se crescentes com uma pequena inflexão após 1000 épocas de treinamento. A acurácia de estimação, validação e total decrescem na medida em que a rede é treinada e a acurácia de testes se mantém constante. Os valores de RMSE de validação da rede ainda são uma ordem de grandeza maior se comparado a simulações anteriores.

Tabela 12: Desempenho da rede ANFIS com três MF em forma de sino. Observa-se que apenas na

primeira época de treinamento acontece o menor RMSE de validação e até 10 épocas de treinamento acontecem as maiores acurácias da rede

Quantidade de funções de pertinência Tipo de função de pertinência Épocas de treinamento Acurácia RMSE Validação Estimação Validação Testes Total

3 GBELLMF 1 100 94,7 98,1 98,4 1,9886 3 GBELLMF 10 100 94,7 98,1 98,4 2,0294 3 GBELLMF 100 99 94,7 98,1 97,9 2,2336 3 GBELLMF 500 99 92,1 98,1 97,4 2,6140 3 GBELLMF 1000 99 92,1 98,1 97,4 2,6025 3 GBELLMF 10000 99 92,1 98,1 97,4 2,5987

Figura 25 – Gráfico de acurácia da rede ANFIS e o RMSE de validação da rede para três MF em forma de sino. Observa-se que até 10 épocas acontece o menor RMSE de validação e até 10 épocas de treinamento acontecem as maiores acurácias da rede

A Tabela 13 e Figura 26 mostram o desempenho da rede ANFIS com quatro funções de pertinência em forma de sino com variações de épocas de treinamento de 1 a 10000 épocas. Observa-se que os valores de RMSE de validação apresentam-se muito maiores se comparados a simulações anteriores e a acurácia

de validação constante e com valor mais baixo também se comparado a simulações anteriores.

Tabela 13: Desempenho da rede ANFIS com quatro MF em forma de sino. Observa-se que a partir

da primeira época de treinamento acontecem os menores RMSE de validação

Quantidade de funções de pertinência Tipo de função de pertinência Épocas de treinamento Acurácia RMSE Validação Estimação Validação Testes Total

4 GBELLMF 1 100 92,1 96,2 97,4 44,1677 4 GBELLMF 10 100 92,1 96,2 97,4 43,7461 4 GBELLMF 100 100 92,1 96,2 97,4 43,5644 4 GBELLMF 500 100 92,1 96,2 97,4 43,5816 4 GBELLMF 1000 100 92,1 96,2 97,4 43,5816 4 GBELLMF 10000 100 92,1 96,2 97,4 43,5816

Figura 26 – Gráfico de acurácia da rede ANFIS e o RMSE de validação da rede para quatro MF em forma de sino. Observa-se que a partir da décima época de treinamento acontecem os menores RMSE

Todas as outras funções de pertinência utilizadas, disponíveis no Matlab R2010a (função de pertinência triangular, função de pertinência gaussiana e função de pertinência em forma de Π), não apresentaram resultados superiores para

variações de épocas de treinamento entre 1 e 10000 épocas e para quantidades de funções de pertinência de 2 a 5 (dados não mostrados neste estudo). A configuração escolhida para o treinamento da rede ANFIS foi com 4 funções de pertinência trapezoidais e 192 épocas de treinamento, que apresentou um dos menores RMSE de validação (0,1054), o menor desvio padrão e a maior média entre as acurácias, representando uma solução de compromisso entre generalização e ajuste demasiado aos dados.

A curva ROC resultante e a área da curva ROC (AuC) produziu melhores resultados se comparados a outros modelos utilizados (Figura 27) demonstrando uma adequação de sensibilidade e especificidade do método proposto, com curvas muito próximas das curvas ideais. A matriz de contingência (confusion plot) resultante (Figura 28) demonstra que utilizando apenas uma característica físico- química (agregação in vitro) e uma característica estrutural (momento dipolar) e uma nova metodologia de construção do banco de dados de não-AMPs, a acurácia geral do método estudado foi de 99.5% e MCC de 0,989. Pode ser observado também que os valores de acurácia nos conjuntos de estimação, validação, testes e total não apresentam variação significativa, revelando que não houve um overfitting da rede. Este desempenho observado foi muito superior se comparado a outros métodos disponíveis, superior inclusive se comparado com o método ANFIS utilizando somente as duas características físico-químicas e os mesmos conjuntos de dados, que apresentou uma acurácia de 96,7% e um MCC de 0.94 (Tabela 14).

Em um cenário mais adverso, onde o treinamento da rede ANFIS é realizado com a remoção de outliers somente para o conjunto de estimação e os conjuntos de validação e testes permanecem com outliers representando possíveis ruídos e erros reais, o modelo proposto ainda apresenta um ótimo desempenho (Figura 29), atingindo 91% de acurácia total (Figura 30).

Considerando apenas as informações físico-químicas, calculadas a partir da sequência do peptídeo, as características determinantes na predição de AMPs, de acordo com a heurística proposta por Jang (JANG, 1996), consistiram em agregação

in vitro e tamanho da sequência primária peptídeo. Considerando apenas as

informações estruturais derivadas da estrutura da molécula, calculadas a partir de arquivos resultantes de cristalografia de raios-X ou RNM, as características determinantes na predição da função de AMPs, de acordo com a heurística proposta por Jang (JANG, 1996), consistiram em hidrofobicidade média da região hidrofóbica

e módulo do momento dipolar. A junção das quatro características e resubmissão a heurística de seleção de dados de entrada resultou em ainda menores valores de RMSE iniciais para a rede ANFIS com o par módulo do momento dipolar e agregação in vitro. Os AMPs tendem a minimizar a sua agregação in vitro, se comparados aos não-AMPs, (Apêndice A e Apêndice B). De acordo com os resultados estruturais, os AMPs apresentam majoritariamente valores negativos de hidrofobicidade média das regiões hidrofóbicas e valorem menores do módulo do momento dipolar, se comparados aos não-AMPs (Apêndice C e Apêndice D).

Figura 27 – Curvas ROC para conjuntos de dados de treinamento, validação, testes e todos os dados juntos (integral) mostrando o desempenho do método ANFIS

Figura 28 – Matrizes de contingência para conjuntos de dados de treinamento, validação, testes e todos os dados juntos (total) mostrando a performance do método ANFIS

Figura 29 - Curvas ROC para conjuntos de dados de treinamento, validação, testes e todos os dados

juntos (integral) mostrando o desempenho do método ANFIS com remoção de outliers somente no conjunto de estimação

Figura 30 - Matrizes de contingência para conjuntos de dados de treinamento, validação, testes e

todos os dados juntos (total) mostrando a performance do método ANFIS com remoção de outliers somente no conjunto de estimação