• No results found

Statistics: Linear mixed effects models

3. MATERIALS AND METHODS

3.5 P APER II AND III

3.5.2 Statistics: Linear mixed effects models

O c´alculo de reajuste dos pesos da rede MLP utilizada por Lynch para treinar seu jogador de Damas em NeuroDraughts ´e uma extens˜ao da equa¸c˜ao (4.2) vista na subse¸c˜ao anterior. A estrutura da rede neural utilizada por Lynch pode ser vista na figura 17. Formalmente, o c´alculo de reajuste dos pesos ´e definido pelas seguintes etapas:

• Dada duas predi¸c˜oes sucessivas calculadas Pt e Pt+1 referentes a dois estados con-

secutivos St e St+1 resultantes de a¸c˜oes executadas pelo agente durante o jogo,

calcula-se o sinal de erro atrav´es da equa¸c˜ao:

e(t) = (γPt+1− Pt)

onde o parˆametro γ ´e uma constante de compensa¸c˜ao da predi¸c˜ao Pt+1 em rela¸c˜ao

a predi¸c˜ao Pt;

• Calculam-se as eligibilidades locais da rede no instante t, isto ´e, eligij(l)(t). Cada

eligibilidade eligij(l)(t) est´a vinculada a um peso sin´aptico w (l)

ij (t) correspondente. A

eligibilidade ´e definida para trˆes casos particulares:

1o) Caso em que o termo elig(0)

ij (t) est´a vinculado ao peso sin´aptico de conex˜ao entre

a sa´ıda do neurˆonio i da camada de entrada (l = 0) com a entrada do neurˆonio j da camada de sa´ıda (l + 2), isto ´e, a eligibilidade est´a vinculada a conex˜ao direta entre a camada de entrada e a camada de sa´ıda. Neste caso, a eligibilidade eligij(l)(t), para

l = 0, ´e definida por:

eligij(l)(t) = λ.elig (l)

ij (t − 1) + g ′

(Pt).a(l)i ;

2o) Caso em que o termo elig(0)

ij (t) est´a vinculado ao peso sin´aptico de conex˜ao entre

a sa´ıda do neurˆonio i da camada de entrada (l = 0) com a entrada do neurˆonio j da camada oculta (l + 1). Neste caso, a eligibilidade eligij(l)(t), para l = 0, ´e definida

por: eligij(l)(t) = λ.elig (l) ij (t − 1) + g ′ (Pt).w(l)ij (t).g ′ (a(l+1)j ).a (l) i ,

onde a(l+1)j ´e o sinal de sa´ıda do neurˆonio j da camada oculta (l + 1);

3o) Caso em que o termos elig(1)

ij (t) est´a vinculado ao peso sin´aptico de conex˜ao

elig(l)ij (t) =                      λ.eligij(l)(t − 1) + g ′ (Pt).w (l) ij (t).g ′ (a(l+1)j ).a (l) i , para l=0 λ.eligij(l)(t − 1) + g ′ (Pt).a(l)i , para l=1

Conforme j´a foi discutido na subse¸c˜ao 4.1.4, a constante λ, para 0 ≤ λ ≤ 1, tem o papel de dar uma “pesagem exponencial” para a taxa de varia¸c˜ao das predi¸c˜oes calculadas a k passos anteriores de t. Neste caso, para λ = 0, o c´alculo do termo de eligibilidade elig(l)ij (t) leva em considera¸c˜ao apenas a varia¸c˜ao da predi¸c˜ao calculada

para o instante temporal t (esta varia¸c˜ao ´e obtida pela derivada g′

). Para λ > 0 e cada vez mais pr´oximo de 1, mais o c´alculo do termo de eligibilidade elig(l)ij (t) leva

em considera¸c˜ao as varia¸c˜oes das predi¸c˜oes calculadas a k passos anteriores de t, conforme ´e definido na express˜ao

t

X

k=1

λt−k

wPk da equa¸c˜ao (4.2).

Para o neurˆonio j que est´a na camada de entrada, isto ´e, l = 0, fa¸ca:

a(0)j = xj(t),

onde xj ´e o j-´esimo elemento do vetor de entrada X(t).

Como a fun¸c˜ao de ativa¸c˜ao utilizada por Lynch ´e a tangente hiperb´olica, ent˜ao a sua derivada g′

(x) ´e definida por:

g′

(x) = (1 − x2)

A derivada da fun¸c˜ao tangente hiperb´olica ´e uma fun¸c˜ao do tipo g′

: (−1, +1) ⇒ (0, +1), isto ´e, esta fun¸c˜ao tem intervalo de existˆencia aberto entre 0 e +1 e tem como parˆametro de entrada g(x).

Note que o termo elig(l)ij (t) pode ser calculado incrementalmente ap´os o processo de

a a¸c˜ao, a rede reajusta os pesos e a predi¸c˜ao final ´e recalculada para aquele estado resultante da a¸c˜ao executada pelo agente (para mais detalhes sobre o processo de reajuste dos pesos da rede neural, veja a subse¸c˜ao anterior);

• Calculado a eligibilidade local da rede, calcula-se a corre¸c˜ao dos pesos w(l)ij (t) da

camada l, para 0 ≤ l ≤ 1, atrav´es da seguinte equa¸c˜ao:

∆w(l)ij (t) = α(l).e(t).elig (l)

ij (t), (4.3)

onde o parˆametro de aprendizagem α(l) ´e definido por Lynch como:

α(l) =                  1 n, para l=0 1 20, para l=1

onde n representa o n´umero de neurˆonios na camada de entrada da rede neural. Observe que Lynch utiliza um mesmo parˆametro de aprendizagem α para o ajuste de todos os pesos sin´apticos de uma mesma camada l da rede. O parˆametro da taxa de aprendizagem ´e respons´avel por determinar a velocidade com que as corre¸c˜oes dos pesos sin´apticos da rede s˜ao efetuadas conforme a equa¸c˜ao (4.3). Por exemplo, quando menor for o parˆametro da taxa de aprendizagem α, menor ser˜ao as varia¸c˜oes dos pesos sin´apticos da rede, de uma itera¸c˜ao para a outra, e mais suave ser´a a trajet´oria no espa¸co de pesos.

Existe um problema t´ıpico associado ao uso de redes MLPs, que ´e o fato de a convergˆencia estar assegurada para um m´ınimo local do erro, e n˜ao necessariamente para o m´ınimo global do erro. Quando a superf´ıcie de erro ´e boa, como na figura (22b), isto n˜ao representa um problema, mas quando a superf´ıcie ´e semelhante `a figura (22a), com muitos m´ınimos locais, a convergˆencia n˜ao ´e assegurada para o melhor valor. Nestes casos, geralmente se utiliza o termo momento µ para tentar solucionar este tipo de problema. A adi¸c˜ao do termo momento no m´etodo TD(λ) determina o efeito das mudan¸cas anteriores dos pesos na dire¸c˜ao atual do movimento no espa¸co de pesos. Em outras palavras, o termo momento evita que o equil´ıbrio da fun¸c˜ao de avalia¸c˜ao se estabele¸ca em regi˜oes cujo erro m´ınimo seja sub-´otimo (FAUSETT, 1994). Para resolver este problema Lynch empregou uma checagem de dire¸c˜ao na equa¸c˜ao (4.2) quando aplicado o termo momento. Neste caso, a checagem de dire¸c˜ao tem por objetivo aplicar o termo momento µ somente quando a corre¸c˜ao do peso atual ∆wij(l)(t) e a corre¸c˜ao anterior ∆w

(l)

1o) Calcule ∆w(l) ij (t) atrav´es da equa¸c˜ao (4.3); 2o) Se (∆w(l) ij (t) > 0 e ∆w (l) ij (t − 1) > 0) ou (∆w (l) ij (t) < 0 e ∆w (l) ij (t − 1) < 0) ent˜ao fa¸ca: ∆wij(l)(t) = ∆w (l) ij (t) + µ.∆w (l) ij (t − 1).

Observe que o termo momento µ ´e utilizado para refor¸car tendˆencias de estabiliza¸c˜ao nas dire¸c˜oes dos reajustes dos pesos j´a manifestadas em tempos anteriores e mantidas no instante presente analisado. Caso n˜ao haja tal tendˆencia, a parcela do termo momento n˜ao ´e aplicada (o que faz “freiar” o processo de reajuste dos pesos), conforme exposto na subse¸c˜ao 2.3.5.1.