L’apprentissage de param`etres (AP) est une ´etape cl´e lors de la construction d’un RB. ´Etant donn´e une structure, l’AP consiste `a estimer de la mani`ere la plus pr´ecise les param`etres du mod`ele `a partir de donn´ees. L’AP est un sujet vaste et complexe, c’est pourquoi nous nous restreindrons aux m´ethodes les plus utilis´ees dans le cadre des RB.
3.4.4.1 Donn´ees compl`etes
Dans le cas le plus simple, l’AP est r´ealis´e sur des donn´ees compl`etes, i.e. pour lesquelles aucune donn´ee n’est manquante ou bien pour lesquelles toutes les variables du RB correspondant sont observ´ees (aucune variable non observ´ee). Si l’on ne consi- d`ere pas de connaissance a priori sur les param`etres (approche fr´equentiste), alors il est possible d’estimer les param`etres de mani`ere tr`es simple `a l’aide de la m´ethode du maximum de vraisemblance (MV). La m´ethode du MV est simple : elle cherche `
a maximiser la probabilit´e que les donn´ees observ´ees aient ´et´e g´en´er´ees par un mo- d`ele dont la structure est fix´ee. On consid`ere un ensemble de donn´ees d’apprentis- sage D = {x1, ..., xm} comprenant m observations pour les n variables de l’ensemble
X = {X1, ..., Xn}. Une observation est une r´ealisation de ces n variables al´eatoires :
pour i ∈ 1, ..., m, xi = {xi1, ..., xin}. On appelle vraisemblance du mod`ele, not´ee L(θ), au vu des observations D d’un ´echantillon de taille m ind´ependamment et identique- ment distribu´e (i.i.d.) selon la DPJ de param`etres θ, le terme :
L(θ) = P (D|θ) = L(x1, ..., xm|θ) = P (x1|θ) × ... × P (xm|θ) = Πm
i=1P (xi|θ).
La m´ethode du maximum de vraisemblance consiste alors `a identifier les para- m`etres θM V maximisant L(θ), appel´e maximum de vraisemblance. Dans la pratique, le maximum de la log-vraisemblance, log L(θ), est utilis´e car il permet de simplifier les calculs et revient `a identifier les mˆemes param`etres. Dans le cas des donn´ees discr`etes qui nous pr´eoccupe, l’estimation par la m´ethode du maximum de vraisemblance est triviale et revient `a calculer la fr´equence d’apparition d’un ´ev`enement :
ˆ P (Xi = xk|P aXi = xj) = ˆθ M V i,j,k = Ni,j,k P kNi,j,k
o`u Ni,j,k est le nombre d’´ev`enements pour lesquels la variable Xi est dans l’´etat xk
et ses parents P aXi sont dans la configuration xj.
Dans de nombreuses situations, il peut ˆetre plus int´eressant de r´ealiser un appren- tissage bay´esien. Contrairement `a l’approche fr´equentiste (e.g. maximum de vrai- semblance), l’approche bay´esienne prend en compte un certain nombre d’a priori sur les param`etres. Par exemple, l’apprentissage bay´esien [10] permet d’apporter des connaissances a priori sur le ph´enom`ene ´etudi´e, ind´ependamment des donn´ees d’ap- prentissage. L’approche bay´esienne consiste `a calculer la distribution a posteriori des
3.4 R´eseaux bay´esiens 35
param`etres P (θ|D) [76]. Les param`etres ˆθM AP maximisant la probabilit´e a posteriori (MAP) peuvent alors ˆetre employ´es :
ˆ
θM AP = argmaxθ log P (θ|D).
La distribution a posteriori P (θ|D) est calcul´ee `a l’aide de la formule de Bayes incor- porant des aprioris sur les param`etres :
P (θ|D) = P (D|θ) P (θ) P (D) ,
o`u P (θ|D) s’exprime comme le produit de la vraisemblance marginalis´ee P (D|θ) (o`u θ est ici une variable al´eatoire) et d’une probabilit´e a priori sur les param`etres P (θ), divis´e par une constante de normalisation (P (D) est constant quel que soit le mod`ele trait´e et n’est pas pris en compte lors du calcul). Une approche alternative au maxi- mum a posteriori consiste `a calculer l’esp´erance a posteriori des param`etres `a inf´erer.
3.4.4.2 Donn´ees incompl`etes
Dans le cas o`u certaines donn´ees sont manquantes, ou bien des variables non ob- serv´ees (appel´ees aussi variables latentes) sont pr´esentes dans le mod`ele, l’AP est bien plus complexe et long car il n´ecessite dans la plupart des situations un apprentissage bas´e sur des m´ethodes it´eratives. L’algorithme le plus utilis´e dans ce cas est l’algo- rithme expectation-maximization (EM) [22], car il est simple `a mettre en œuvre et efficace dans la majorit´e des situations. Il peut ˆetre employ´e `a la fois dans le cadre fr´equentiste et dans le cadre bay´esien. Nous le pr´esenterons en d´etail sous la perspec- tive fr´equentiste.
Soit log P (D|θ) = log P (Do, Dm|θ) la log-vraisemblance des donn´ees compl`etes.
Do et Dm correspondent aux donn´ees observ´ees et aux donn´ees manquantes, res-
pectivement. En consid´erant un mod`ele de r´ef´erence θ∗, il est possible d’estimer la distribution de probabilit´e des donn´ees manquantes P (Dm|θ∗), et ainsi de calculer
Q(θ; θ∗) l’esp´erance de la log-vraisemblance des donn´ees compl`etes :
Q(θ; θ∗) = Eθ∗[log P (Do, Dm|θ)].
Q(θ; θ∗) est l’esp´erance de la vraisemblance d’un ensemble de param`etres θ quel- conque, calcul´ee en employant la distribution de donn´ees manquantes P (Dm|θ∗). Dans
le cadre des r´eseaux bay´esiens, l’´equation pr´ec´edente peut se r´e´ecrire de la fa¸con sui- vante : Q(θ; θ∗) = n X i=1 qi X j=1 ri X k=1
Nijk∗ log θijk (3.2)
o`u Nijk∗ = Eθ∗[Nijk] = N × P (Xi = xk, P aX
i = xj|θ
∗) est obtenu par inf´erence dans
mesur´es, et par simple comptage sinon. N est le nombre total d’observations. L’algorithme EM est tr`es simple et consiste `a it´erer deux ´etapes. Soient θt= {θijkt } les param`etres du mod`ele `a l’it´eration t. A l’´etape t + 1, deux calculs sont mis en œuvre :
– calcul de l’esp´erance : estimation des Nijk∗ de l’´equation 3.2 `a partir des para- m`etres de r´ef´erence θt,
– maximisation : identification des param`etres θt+1 qui maximisent Q :
θt+1ijk = N ∗ ijk P kNijk∗ .
Ces deux ´etapes sont r´ep´et´ees tant qu’il est possible d’augmenter la valeur de Q. L’algorithme converge g´en´eralement vers un maximum local. C’est pourquoi de nombreuses m´ethodes ont ´et´e d´evelopp´ees pour pallier ce probl`eme. La plus simple consiste `a relancer l’algorithme en tirant al´eatoirement de nouvelles valeurs pour les param`etres de d´epart (r´einitialisation al´eatoire). De nombreuses variantes de l’algo- rithme EM ont ´et´e propos´ees, notamment pour simplifier le probl`eme de l’´etape de maximisation (EM g´en´eralis´e) [22]. L’algorithme EM peut aussi s’appliquer au cadre bay´esien. Il suffit pour cela de remplacer le maximum de vraisemblance de l’´etape de maximisation par le maximum a posteriori ou l’esp´erance a posteriori.