Del I Innledende del
3.1 Forsvarsdepartementet
Como já anteriormente referido (ver secção 4.9), o número de neurónios a introduzir na camada escondida de um MLP é um assunto que ainda se
5.4. Seleção de modelos
Figura 5.3: Arquitetura de uma GANN correspondente a um GLM.
mantém em aberto, uma vez não existir uma forma eficiente para o definir. Apesar da GANN utilizar esta arquitetura para definição das funções par- ciais, é possível através da adoção de técnicas já utilizadas nos modelos de regressão, nomeadamente nos GAMs, definir a arquitetura final. De facto, no caso específico de uma GANN, para a seleção do melhor modelo pode-se recorrer a análise informal de gráficos dos resíduos parciais, como já se faz com os GAMs. Para a obtenção destes gráficos, é importante a estimação dos resíduos parciais através da expressão (Potts, 1999):
prji = g−1[E(y)] − β0−
X
l6=k
ˆ
fl(xl), (5.3)
que é equivalente à expressão:
prji = (g−1(yi) − g−1( ˆyi)) + ˆfj(xji), (5.4)
em que prji representa o resíduo parcial da j-ésima variável, ˆyi é a esti-
mativa da resposta do i-ésimo indivíduo, yi representa o valor observado e
ˆ
No caso da função de ligação g(.) ser uma função não linear, para a expressão anterior poderá ser utilizada uma aproximação de primeira ordem, resultando em:
prji =
∂g−1(yi)
∂y (yi− ˆyi) + ˆfj(xji). (5.5) No caso da estimação de uma GANN, a análise visual utilizada na orien- tação do processo de seleção do modelo é efetuada sobre a leitura de gráficos, cujas abcissas e ordenadas representam respetivamente os valores da variável explicativa e os resíduos parciais. Com efeito, a análise visual dos resíduos possibilita a observação da sua relação com a respetiva função parcial e com base neste método, foi proposto por Potts (1999) um algoritmo interativo que permite conduzir o analista no processo de estimação do número de neu- rónios a introduzir em cada subarquitetura (MLP de base da função parcial) de uma GANN genérica.
Seguem-se, em detalhe, os passos que constituem o algoritmo interativo de Potts (1999):
Algoritmo interativo para a construção de uma GANN
1. Construir a GANN com um neurónio e uma skip layer para cada en- trada, assumindo que os dados da amostra são previamente normali- zados. Variáveis explicativas binárias (e.g. variáveis dummy) apenas possuem uma skip layer.
2. Cada entrada/função parcial irá corresponder, inicialmente, a 4 parâ- metros sinápticos. No caso em que as variáveis são binárias, só existirá um parâmetro (correspondente a um MLP constituído apenas por uma skip layer ).
3. Modelam-se os dados através de uma GLM de modo a gerar os valo- res iniciais a serem introduzidos como pesos sinápticos das skip layers existentes, bem como do parâmetro β0 (bias) da GANN (ver fig. 5.2).
Os restantes pesos são inicializados com base em valores aleatórios ω ∼ N (0, 0.1).
4. Procede-se à adaptação da rede.
5. Através da observação do gráfico dos resíduos parciais, procede-se à remoção de neurónios no caso de existir uma relação linear entre os valores da variável explicativa e os resíduos parciais. No caso de esta
5.4. Seleção de modelos
associação ser não linear, procede-se à adição de mais neurónios em cada subarquitetura que define a respetiva função parcial.
6. Repetem-se os passos a partir do ponto 4 só que, desta vez, podem-se aproveitar os valores resultantes desta época para inicializar os parâ- metros da próxima.
Segue-se um exemplo com dados simulados em que se utiliza o algoritmo de Potts (1999).
Exemplo
Para exemplificar o algoritmo interativo, foi gerada uma amostra de dados a partir do algoritmo 8:
Entrada: x1, ..., xp, f1(.), ..., fp(.), função de ligação h(.) 1 início
2 Estimar η = f1(x1) + ... + fp(xp); 3 Estimar π = h(η);
4 para cada indivíduo i faça 5 bi ∼ U [0, 1]; 6 se bi ≤ πi então 7 yi = 1; 8 senão 9 yi = 0; 10 fim 11 fim
12 retorna Amostra de dados simulados (y, x1, ..., xp) 13 fim
Algoritmo 8: Algoritmo de simulação de dados.
São geradas duas variáveis, X1 e X2, ambas aleatórias, independentes e
com distribuição Uniforme: X1 ∼ U [−3, 3] e X2 ∼ U [−2, 2]. São também
implementadas as seguintes funções parciais: f1(X1) = X1 e f2(X2) = X22.
A partir da execução deste algoritmo é gerada a variável resposta Y , de acordo com o seguinte modelo:
Estes dados foram, então, utilizados para estimar uma GANN com fun- ção de ligação logística, através do método 5-Fold Cross Validation.
Após os primeiros quatro passos do algoritmo interativo de Potts, em que as funções parciais correspondem a um MLP com skip layer e um neurónio escondido, obtiveram-se os gráficos 5.4 e 5.5 baseados nos valores dos resíduos parciais (ver eq. 5.5). É necessário ter em atenção que foi aplicada a restrição de identificabilidade E[fj(Xj)] = 0, tal como se faz nos GAMs (Tibshirani
e Hastie, 1987). Este assunto será abordado com maior detalhe na secção 5.5.
Figura 5.4: Gráfico dos resíduos parciais correspondente à variável expli-
cativa X1, obtido a partir de uma GANN com função de ligação logística e com a respetiva subarquitetura da função parcial da GANN, constituída por um neurónio escondido e uma skip layer.
No processo de orientação do analista para a escolha da complexidade do modelo, pode-se recorrer a um spline ajustado aos resíduos parciais. Se este spline resultar numa reta horizontal ou próximo, paralela ao eixo das abcissas, significa que a associação entre a variável explicativa e a resposta é fraca ou inexistente, pelo que nestes casos a variável poderá ser retirada do modelo. Este processo permite, então, também selecionar variáveis.
No caso do spline resultar numa reta com declive significativo, quer seja positivo ou negativo, tal como se pode observar na fig. 5.4, uma relação linear entre a variável explicativa e a resposta poderá ser a mais indicada. Assim,
5.4. Seleção de modelos
Figura 5.5: Gráfico dos resíduos parciais correspondente à variável expli-
cativa X2, obtido a partir de uma GANN com função de ligação logística e com a respetiva subarquitetura da função parcial da GANN constituída por um neurónio escondido e uma skip layer.
pode-se reduzir a complexidade do modelo, pela redução da complexidade do MLP em que se baseia a função parcial da GANN, com uma topologia que apenas possua uma skip layer.
Se o spline resultar numa função não linear, então a relação entre a va- riável explicativa e a resposta é não linear. Neste caso, podem-se adicionar neurónios à camada escondida. No entanto, dever-se-á ter em atenção o compromisso viés-variância, abordado na secção 4.8.1 e evitar adicionar um número excessivo de neurónios de forma a aumentar, em simultâneo, o viés e a variância (Du Toit, 2006).
Para auxiliar o analista nesta escolha, este pode recorrer a métricas utili- zadas para a avaliação dos modelos (Potts, 1999). Neste exemplo, utilizamos o Erro Quadrático Médio (Mean Squared Error - M SE) obtido a partir da amostra de validação, de forma a contemplar o problema do compromisso viés-variância (ver secção 4.8.2). Verificou-se que não há uma melhoria sig- nificativa para um número acima de dois neurónios escondidos na subarqui- tetura da função parcial f2(X2) da GANN em análise.
f1(X1) e um MLP com dois neurónios escondidos para f2(X2), resultando nos
respetivos gráficos das figuras 5.6 e 5.7, podendo-se observar a proximidade dos splines às funções parciais geradas.
Figura 5.6: Gráfico dos resíduos parciais correspondente à variável expli-
cativa X1, obtido a partir de uma GANN com função de ligação logística e com o MLP da respetiva função parcial, constituído por apenas uma skip
layer.
Com base na package mgcv (Wood, 2006) do software R (R Development Core Team, 2012), adaptámos ainda um GAM para comparar os gráficos dos resíduos e das funções parciais com os respetivos gráficos da GANN. Pelo que se pode observar, embora os modelos e os métodos de estimação se baseiem em diferentes conceitos, os resultados são bastante similares (ver figs. 5.8 e 5.9).
No entanto, este tipo de análise, por ser subjetiva, levanta alguns proble- mas, dado que a sua eficácia assenta sobretudo na experiência do analista. Desta forma, torna-se necessária a introdução, no processo de seleção do modelo, de um algoritmo que oriente de forma automática a construção da arquitetura da GANN, dispensando a decisão do analista de dados.
5.4. Seleção de modelos
Figura 5.7: Gráfico dos resíduos parciais correspondente à variável expli-
cativa X1, obtido a partir de uma GANN com função de ligação logística e com o MLP da respetiva função parcial constituído por dois neurónios e uma skip layer.
Figura 5.8: Gráfico dos resíduos parciais correspondente à variável ex-
plicativa X1, obtido a partir de um GAM com função de ligação logística.