A short historical sketch - Science and Technology in the EU

Le Metropolis-adjusted Langevin algorithm (MALA) [18] est un algorithme utilisant une distribution instrumentale dite informative. Le principe est de proposer des candidats se situant dans des régions de plus grande densité en utilisant le gradient de la distribution cible afin de diriger la recherche dans la bonne direction. Les candidats ainsi proposés ont plus de chance d’être acceptés, ce qui augmente la vitesse d’exploration de l’espace d’états. L’algorithme comporte deux étapes. La première consiste à générer les candidats à l’aide d’une distribution instrumentale particulière. La deuxième est une étape d’acceptation/rejet semblable à celle de l’algorithme Metropolis-Hastings. Pour la première étape, la distribution instrumentale utilisée est basée sur la discrétisation d’un processus de diffusion de Langevin. Un processus de diffusion sert à décrire, par exemple, l’évolution de la position d’une particule

dans le temps lorsque son mouvement est aléatoire. Ce type de processus est la généralisa- tion des chaînes de Markov en temps continu. Les éléments théoriques sur les processus de diffusion nécessaires à l’implantation du MALA sont présentés ici, mais il est possible de se référer à [14] pour plus de détails sur la théorie des processus stochastiques en général.

Définition 1.3.3. Un processus stochastique, {X[t] : t > 0}, à espace d’états X de dimen-

sion d est appelé une diffusion avec fonction de dérive, µ(x), et fonction de diffusion, β(x), s’il vérifie l’équation différentielle stochastique

dX[t] = µ(X[t])dt + β(X[t])dBt,

où Btest le mouvement brownien standard en d dimensions et µ : X → Rdet β : X → Rd×Rd

sont des fonctions continues.

Le processus de diffusion de Langevin à espace d’états X de dimension d, noté {L[t] : t > 0}, est un processus de diffusion avec fonctions de dérive et de diffusion

µ(x) = σ

2 ∇ log{π(x)} et β(x) = σId

où ∇ est le gradient, σ > 0, Id est la matrice identité en dimension d et π est une densité

quelconque à valeur dans X . Ceci signifie que le processus L(t) satisfait l’équation différen- tielle

dL[t] = σ

2 ∇ log{π(L[t])}dt + σdBt.

Ici, il s’avère que la densité π est la densité associée à la distribution stationnaire, Π, du pro- cessus, c’est-à-dire que Π(dx) = π(x)dx. Un processus de diffusion peut, comme une chaîne de Markov, posséder une distribution stationnaire sous certaines conditions (voir [14]). En fait, il est possible de démontrer que non seulement L[t] possède Π comme distribution sta- tionnaire, mais également que pour tout x ∈ X , le processus converge vers cette distribution, c’est-à-dire

lim

t→∞P t

L(x, A) = Π(A), ∀ A ⊆ X ,

où P_Lt(x, A) = P (L[t] ∈ A| L[0] = x), t ≥ 0 (voir [21], théorème 2.1). Ceci trace donc un parallèle avec le théorème 1.2.10 pour les chaînes de Markov.

Étant donné que l’objectif ici est de générer une chaîne de Markov, il faut pouvoir discré- tiser ce processus de diffusion. Néanmoins, il est intéressant d’observer que le processus de diffusion de Langevin, duquel est inspirée la chaîne de Markov créée par le MALA, converge vers Π. Il existe plusieurs façons de discrétiser un processus de diffusion, mais dans ce cas-ci, la discrétisation utilisée est la suivante : pour n ∈ N, on pose

X[n + 1] − X[n] = σ

2 ∇ log{π(X[n])} + σZ[n + 1], (1.3.7) où les variables aléatoires Z[n] ∼ Nd(0, Id) sont indépendantes, avec 0 = (0, . . . , 0) ∈ X . Ces

dernières jouent le rôle du mouvement brownien dans le cas discret. La question maintenant est de savoir si la discrétisation du processus de Langevin possède les mêmes propriétés intéressantes en ce qui concerne la convergence du processus. Or, malheureusement, lorsque la chaîne de Markov est générée selon (1.3.7), c’est-à-dire

X[n + 1] | X[n] = x ∼ N x +σ 2 2 ∇ log{π(x)}, σ 2_I d ! ,

la chaîne peut ne pas converger vers la bonne distribution cible. À titre d’exemple, si π(x) est une N (0, 1) sur R et que σ2 _{= 2, on a}

log {π(x)} = −x 2 2 − log(2π) 2 ⇒ ∂ ∂xlog {π(x)} = −x, et donc X[n + 1] | X[n] = x ∼ N (0, 2).

Ainsi, dans ce cas, il y a « convergence » immédiate, mais pas vers la distribution désirée. D’autres problèmes surviennent dans des cas particuliers. C’est pour ces raisons que le MALA comporte une deuxième étape qui permet d’obtenir une chaîne réversible par rapport à Π. Celle-ci est l’étape d’acceptation/rejet telle qu’introduite en (1.3.1). Lorsque l’état de la chaîne au temps n est x ∈ X , les étapes du MALA sont les suivantes :

(1) Générer y ∼ q(x, ·), où q(x, y) = 1 (2πσ2₎d/2 exp    − 1 2σ2 y − x −σ 2 2 ∇ log{π(x)} 2   . (1.3.8)

(2) Accepter ce candidat avec probabilité

α(x, y) = min ( 1,π(y)q(y, x) π(x)q(x, y) ) .

(3) Si le candidat est accepté, poser X[n + 1] = y ; sinon, poser X[n + 1] = x.

Il est à noter que généralement q(x, y) 6= q(y, x). Puisque le MALA n’est en fait qu’un MH avec une distribution instrumentale Q(x, ·) particulière, les conditions du théorème 1.2.10 sont respectées et la chaîne converge bien vers la distribution cible Π. L’inconvénient du MALA est que le calcul du gradient est généralement coûteux computationnellement. Malgré tout, la performance du MALA est de loin supérieure à celle du RWM lorsque d augmente (voir [18]).

Pour le MALA, le seul paramètre à ajuster est σ. Ainsi, tout comme pour le RWM, le choix de ce paramètre doit être effectué judicieusement. De trop grandes ou trop petites valeurs mènent à une exploration fastidieuse de l’espace d’états. À nouveau, pour une distribution cible avec composantes indépendantes et identiquement distribuées, il a été démontré dans [18] que le choix de ` optimal pour une variance de la forme σ2

d = `/d1/3

est celui permettant d’obtenir un taux d’acceptation asymptotique de 0,574. Ainsi, le MALA est optimal pour un taux d’acceptation plus grand que le 0,234 du RWM mentionné précédemment. De plus, la variance optimale du RWM est O(d−1) tandis que celle du MALA est O(d−1/3) ; les pas effectués par le MALA seront donc généralement plus grands que ceux du RWM. Ces deux aspects impliquent donc que le MALA aura tendance à explorer X beaucoup plus rapidement que le RWM traditionnel.

Lorsque les composantes de la distribution cible ne sont pas indépendantes et ont des variances hétérogènes, il faut utiliser une distribution instrumentale différente de (1.3.8). Autrement, il faudrait spécifier une valeur de σ trop conservatrice, c’est-à-dire pouvant ac- commoder les différentes variances, afin de ne pas avoir un taux d’acceptation trop faible, et donc une exploration inefficace de X . Pour résoudre ce problème, il est possible d’utiliser le MALA avec une matrice pré-conditionnée, M , dans la discrétisation du processus, soit

X[n + 1] − X[n] = σ

2 M ∇ log{π(X[n])} + σM

1/2_{Z[n + 1].}

Certains choix de M mènent à des algorithmes plus efficaces que d’autres. Dans [5], Girolami et Calderhead ont démontré qu’utiliser la géométrie inhérente à l’espace d’états en posant

M = I−1(X), soit l’inverse de l’information de Fisher, menait à un algorithme très per- formant. Cela est particulièrement le cas pour des distributions cibles en grande dimension avec des composantes fortement corrélées. Dans ce cas, l’utilisation de M = I−1(X) résulte en un algorithme ayant une vitesse de convergence beaucoup plus grande que le MALA, ce dernier étant très peu efficace dans de telles situations. En pratique, inverser l’information de Fisher à chaque itération peut s’avérer coûteux computationnellement. Ainsi, en fonction de la complexité de la distribution cible, il ne sera pas toujours judicieux d’utiliser cet al- gorithme. L’utilisation du MALA ou même du RWM dans certaines situations pourrait être recommandée, même si leur vitesse de convergence est plus lente. Il y a donc un équilibre à trouver entre la vitesse de l’exploration de X et le coût computationnel requis.

In document Science and Technology in the EU - General Development and Relation to the Nordic Countries (sider 11-24)