Chapter 1 - Selecting methods for ecosystem service assessment: A decision tree approach
3. Results
3.2 Key features of methods that may influence their selection
Uma definição válida para RNA é que são modelos matemáticos baseados no funcionamento dos neurônios biológicos (KOVÁCS, 1996). A semelhança entre a rede neural artificial e a biológica pode ser observada na capacidade de aprender através de exemplos e de generalizar a informação aprendida. A generalização está relacionada com a capacidade da RNA aprender a partir de um conjunto reduzido de amostras e dar respostas coerentes para dados não conhecidos.
3.3.1. Neurônio Biológico x Neurônio Artificial
Como qualquer célula biológica, o neurônio é delimitado por uma fina membrana celular que além de sua função biológica normal, possui determinadas propriedades que são essenciais para o funcionamento elétrico da célula nervosa (KOVÁCS, 1996). O neurônio pode ser dividido em três componentes como mostra a Figura 11.
Os dendritos são responsáveis por receber as informações (impulsos nervosos) e conduzi-los até o corpo celular. Esse processa os sinais recebidos e envia novos impulsos através dos axônios, também conhecidos como dispositivos de saídas.
FIGURA11–REPRESENTAÇÃO DE UM NEURÔNIO BIOLÓGICO.
A saída só é produzida se um impulso elétrico for maior ou igual a função de limiar. As sinapses são pontos de conexão entre os axônios e os dendritos de outros neurônios que propagam os impulsos. Assim, com a união desses nodos se tem uma rede neural.
O neurônio artificial de McCulloch e Pitts, apresentada na Figura 12, se baseia em n entradas (x1, x2, ..., xn) para apresentação dos padrões. Para emular o comportamento das sinapses, esses terminais tem os pesos (w1, w2, ..., wn) com valores positivos ou negativos (excitatórios ou inibitórios) que permitem ou não a passagem das informações. O cálculo entre as entradas e os pesos, é feito com a equação (10).
∑
=≥
n i i iw
x
0θ
(10) Sendo: n = Número de neurônios; xi = Entrada da rede;wi = Peso associado à entrada xi;
θ = Limiar de excitação (threshold) do neurônio.
FIGURA12–REPRESENTAÇÃO DO NEURÔNIO ARTIFICIAL.
O modelo de neurônio artificial apresentado por McCulloch e Pitts (1943), mostra apenas um terminal de saída (y) que apresenta o resultado final do processamento neural. Este é um modelo simplificado, pois os neurônios disparam sincronamente, fazendo com que sejam avaliados ao mesmo tempo. Esse sincronismo não ocorre no sistema biológico, assim como não existe a restrição em relação à ativação da saída em tempos discretos como neste modelo (BRAGA; CARVALHO; LUDERMIR, 2000).
O resultado do cálculo utilizando as entradas e os pesos passam pela função de ativação, ativando ou não a saída do neurônio dependendo do valor da soma ponderada das entradas. A saída do neurônio poderá ser linear ou não-linear de acordo com a função de ativação utilizada, como mostra a Figura 13.
FIGURA13–FUNÇÕES DE ATIVAÇÃO COMUMENTE USADAS E SUAS EQUAÇÕES (SILVA,C.B.S,2007).
3.3.2.
Rede neural artificial Perceptron Multicamadas
A RNA Perceptron Multicamadas (Multilayer Perceptron - MLP) é uma arquitetura chamada de alimentação para frente (feedforward) que contêm pelo menos uma camada intermediária e uma de saída. O treinamento da MLP é feito com o algoritmo
Backpropagation ou conhecida também como Regra Delta Generalizada. O treinamento consiste em ajustar os pesos e limiares de maneira que uma aplicação com um conjunto de entradas consiga produzir a saída desejada e minimizar o erro quadrático médio (EQM10). O EQM é a diferença entre o valor estimado e o valor real elevado ao quadrado.
O número de repetições do treinamento é denominado de época. No caso da MLP o treinamento é supervisionado, ou seja, necessita de um conjunto de treinamento composto por entradas e saídas. O número de camadas intermediárias determina a resolução de problemas de classificação lineares ou não lineares. Já o número de neurônios, influencia no treinamento da RNA, pois o número excessivo pode sobre ajustar a rede na presença de ruídos, memorizando os padrões de treinamento (overfitting). O inverso também ocorre, caso a quantidade de neurônios seja pequena, a rede pode não convergir (underfitting).
10
A taxa de aprendizagem é o termo que interfere na convergência da solução para um mínimo local ou global e com isso aumentando o tempo de aprendizado. Outro termo que pode ser utilizado nesse algoritmo é a constante de momentum. Esse determina o efeito das mudanças passadas dos pesos na direção atual do treinamento, permitindo o aumento na velocidade de convergência (SILVA, C. B. S, 2007).
As duas fases do algoritmo são descritas a seguir e ilustradas na Figura 14. • Forward
Um padrão de entradas é apresentado e propagado até a camada de saída sem qualquer alteração dos pesos sinápticos.
• Backward
Enquanto o valor da saída for diferente da saída desejada, o erro é calculado e retro- propagado, ajustando os pesos para cada padrão.
FIGURA14–SENTIDOS DE PROCESSAMENTO DO ALGORITMO BACKPROPAGATION.
O erro quadrático é dado conforme a equação (11).
∑
∈−
=
C j n nk
y
k
d
k
E(
)
(
(
)
(
))
2 (11) Sendo:dn = Resposta desejada na saída do neurônio n; yn = Resposta produzida na saída do neurônio n;
E(k) = Soma instantânea do erro quadrático na interação k; C = Refere-se a todos os neurônios da camada de saída da rede.
O sinal de erro na saída do neurônio a cada interação é exatamente a saída desejada subtraída da saída produzida. Já o erro quadrático médio é obtido pela somatória do erro quadrático, demonstrado na equação (11), ou seja:
∑
==
P nk
E
P
EQM
1)
(
1
(12) Sendo:EQM = Erro quadrático médio; P = Número total de padrões.
3.3.3. Seleção de Variáveis (Wrapper)
A seleção de variáveis consiste em encontrar o menor subconjunto de características, eliminando os atributos redundantes ou irrelevantes para a tomada de decisão do sistema inteligente. O sistema inteligente utilizado neste trabalho é uma RNA com algoritmo de MLP. A seleção de variáveis é tão importante quanto à configuração da RNA. Existem métodos que dependem somente das propriedades dos dados (Filtros) e os que dependem do modelo de aprendizagem (Wrapper) (CASTRO JORGE et al., 2007).
Apesar do seu alto custo computacional, o algoritmo Wrapper é muito utilizado na seleção de atributos para problemas de aprendizado supervisionado e no geral fornece melhores resultados (FERNANDES; SILVA; OLESKOVICZ, 2008). Esse algoritmo funciona como uma caixa preta em conjunto com o modelo de aprendizagem. Sua metodologia é mostrada na Figura 15 que foi apresentada no trabalho de Kohavi e John (1997) citado nos trabalhos de Castro Jorge et al. (2007) e HALL et al. (2009).
A entrada é o conjunto de treinamento, sendo que suas características passam por um método de busca. Hill-Climbing ou Best-First são exemplos, porém o método de busca exaustiva é um dos mais utilizados. A busca exaustiva percorre por todas as possibilidades, mas em contra partida acaba aumentando o custo computacional.
Os subconjuntos de características resultantes dessa busca recebem um custo em uma avaliação. Já o algoritmo de indução classifica todos esses subconjuntos com a precisão do classificador, obtendo assim uma estimativa de desempenho. Com os critérios de busca pelos subconjuntos já satisfeitos, os subconjuntos selecionados passam novamente por outro algoritmo de indução. Nessa segunda passagem, eles são avaliados juntamente com o conjunto de treinamento.