3. MATERIALS AND METHODS
3.5 P APER II AND III
3.5.2 Statistics: Linear mixed effects models
O c´alculo de reajuste dos pesos da rede MLP utilizada por Lynch para treinar seu jogador de Damas em NeuroDraughts ´e uma extens˜ao da equa¸c˜ao (4.2) vista na subse¸c˜ao anterior. A estrutura da rede neural utilizada por Lynch pode ser vista na figura 17. Formalmente, o c´alculo de reajuste dos pesos ´e definido pelas seguintes etapas:
• Dada duas predi¸c˜oes sucessivas calculadas Pt e Pt+1 referentes a dois estados con-
secutivos St e St+1 resultantes de a¸c˜oes executadas pelo agente durante o jogo,
calcula-se o sinal de erro atrav´es da equa¸c˜ao:
e(t) = (γPt+1− Pt)
onde o parˆametro γ ´e uma constante de compensa¸c˜ao da predi¸c˜ao Pt+1 em rela¸c˜ao
a predi¸c˜ao Pt;
• Calculam-se as eligibilidades locais da rede no instante t, isto ´e, eligij(l)(t). Cada
eligibilidade eligij(l)(t) est´a vinculada a um peso sin´aptico w (l)
ij (t) correspondente. A
eligibilidade ´e definida para trˆes casos particulares:
1o) Caso em que o termo elig(0)
ij (t) est´a vinculado ao peso sin´aptico de conex˜ao entre
a sa´ıda do neurˆonio i da camada de entrada (l = 0) com a entrada do neurˆonio j da camada de sa´ıda (l + 2), isto ´e, a eligibilidade est´a vinculada a conex˜ao direta entre a camada de entrada e a camada de sa´ıda. Neste caso, a eligibilidade eligij(l)(t), para
l = 0, ´e definida por:
eligij(l)(t) = λ.elig (l)
ij (t − 1) + g ′
(Pt).a(l)i ;
2o) Caso em que o termo elig(0)
ij (t) est´a vinculado ao peso sin´aptico de conex˜ao entre
a sa´ıda do neurˆonio i da camada de entrada (l = 0) com a entrada do neurˆonio j da camada oculta (l + 1). Neste caso, a eligibilidade eligij(l)(t), para l = 0, ´e definida
por: eligij(l)(t) = λ.elig (l) ij (t − 1) + g ′ (Pt).w(l)ij (t).g ′ (a(l+1)j ).a (l) i ,
onde a(l+1)j ´e o sinal de sa´ıda do neurˆonio j da camada oculta (l + 1);
3o) Caso em que o termos elig(1)
ij (t) est´a vinculado ao peso sin´aptico de conex˜ao
elig(l)ij (t) = λ.eligij(l)(t − 1) + g ′ (Pt).w (l) ij (t).g ′ (a(l+1)j ).a (l) i , para l=0 λ.eligij(l)(t − 1) + g ′ (Pt).a(l)i , para l=1
Conforme j´a foi discutido na subse¸c˜ao 4.1.4, a constante λ, para 0 ≤ λ ≤ 1, tem o papel de dar uma “pesagem exponencial” para a taxa de varia¸c˜ao das predi¸c˜oes calculadas a k passos anteriores de t. Neste caso, para λ = 0, o c´alculo do termo de eligibilidade elig(l)ij (t) leva em considera¸c˜ao apenas a varia¸c˜ao da predi¸c˜ao calculada
para o instante temporal t (esta varia¸c˜ao ´e obtida pela derivada g′
). Para λ > 0 e cada vez mais pr´oximo de 1, mais o c´alculo do termo de eligibilidade elig(l)ij (t) leva
em considera¸c˜ao as varia¸c˜oes das predi¸c˜oes calculadas a k passos anteriores de t, conforme ´e definido na express˜ao
t
X
k=1
λt−k∇
wPk da equa¸c˜ao (4.2).
Para o neurˆonio j que est´a na camada de entrada, isto ´e, l = 0, fa¸ca:
a(0)j = xj(t),
onde xj ´e o j-´esimo elemento do vetor de entrada X(t).
Como a fun¸c˜ao de ativa¸c˜ao utilizada por Lynch ´e a tangente hiperb´olica, ent˜ao a sua derivada g′
(x) ´e definida por:
g′
(x) = (1 − x2)
A derivada da fun¸c˜ao tangente hiperb´olica ´e uma fun¸c˜ao do tipo g′
: (−1, +1) ⇒ (0, +1), isto ´e, esta fun¸c˜ao tem intervalo de existˆencia aberto entre 0 e +1 e tem como parˆametro de entrada g(x).
Note que o termo elig(l)ij (t) pode ser calculado incrementalmente ap´os o processo de
a a¸c˜ao, a rede reajusta os pesos e a predi¸c˜ao final ´e recalculada para aquele estado resultante da a¸c˜ao executada pelo agente (para mais detalhes sobre o processo de reajuste dos pesos da rede neural, veja a subse¸c˜ao anterior);
• Calculado a eligibilidade local da rede, calcula-se a corre¸c˜ao dos pesos w(l)ij (t) da
camada l, para 0 ≤ l ≤ 1, atrav´es da seguinte equa¸c˜ao:
∆w(l)ij (t) = α(l).e(t).elig (l)
ij (t), (4.3)
onde o parˆametro de aprendizagem α(l) ´e definido por Lynch como:
α(l) = 1 n, para l=0 1 20, para l=1
onde n representa o n´umero de neurˆonios na camada de entrada da rede neural. Observe que Lynch utiliza um mesmo parˆametro de aprendizagem α para o ajuste de todos os pesos sin´apticos de uma mesma camada l da rede. O parˆametro da taxa de aprendizagem ´e respons´avel por determinar a velocidade com que as corre¸c˜oes dos pesos sin´apticos da rede s˜ao efetuadas conforme a equa¸c˜ao (4.3). Por exemplo, quando menor for o parˆametro da taxa de aprendizagem α, menor ser˜ao as varia¸c˜oes dos pesos sin´apticos da rede, de uma itera¸c˜ao para a outra, e mais suave ser´a a trajet´oria no espa¸co de pesos.
Existe um problema t´ıpico associado ao uso de redes MLPs, que ´e o fato de a convergˆencia estar assegurada para um m´ınimo local do erro, e n˜ao necessariamente para o m´ınimo global do erro. Quando a superf´ıcie de erro ´e boa, como na figura (22b), isto n˜ao representa um problema, mas quando a superf´ıcie ´e semelhante `a figura (22a), com muitos m´ınimos locais, a convergˆencia n˜ao ´e assegurada para o melhor valor. Nestes casos, geralmente se utiliza o termo momento µ para tentar solucionar este tipo de problema. A adi¸c˜ao do termo momento no m´etodo TD(λ) determina o efeito das mudan¸cas anteriores dos pesos na dire¸c˜ao atual do movimento no espa¸co de pesos. Em outras palavras, o termo momento evita que o equil´ıbrio da fun¸c˜ao de avalia¸c˜ao se estabele¸ca em regi˜oes cujo erro m´ınimo seja sub-´otimo (FAUSETT, 1994). Para resolver este problema Lynch empregou uma checagem de dire¸c˜ao na equa¸c˜ao (4.2) quando aplicado o termo momento. Neste caso, a checagem de dire¸c˜ao tem por objetivo aplicar o termo momento µ somente quando a corre¸c˜ao do peso atual ∆wij(l)(t) e a corre¸c˜ao anterior ∆w
(l)
1o) Calcule ∆w(l) ij (t) atrav´es da equa¸c˜ao (4.3); 2o) Se (∆w(l) ij (t) > 0 e ∆w (l) ij (t − 1) > 0) ou (∆w (l) ij (t) < 0 e ∆w (l) ij (t − 1) < 0) ent˜ao fa¸ca: ∆wij(l)(t) = ∆w (l) ij (t) + µ.∆w (l) ij (t − 1).
Observe que o termo momento µ ´e utilizado para refor¸car tendˆencias de estabiliza¸c˜ao nas dire¸c˜oes dos reajustes dos pesos j´a manifestadas em tempos anteriores e mantidas no instante presente analisado. Caso n˜ao haja tal tendˆencia, a parcela do termo momento n˜ao ´e aplicada (o que faz “freiar” o processo de reajuste dos pesos), conforme exposto na subse¸c˜ao 2.3.5.1.