• No results found

Granular sludge size distribution for saugbrugs (new) and saugbrugs (old) (sample G & H)61

5.5 Saugbrugs reactor investigation

5.5.2 Granular sludge size distribution for saugbrugs (new) and saugbrugs (old) (sample G & H)61

les facteurs g´en´etiques). Troisi`emement, le recrutement des populations est rapide et simple, et l’approche populationnelle permet d’´etudier les interactions g`ene-g`ene et g`ene-environnement. Cependant, cette derni`ere approche est plus sujette `a la pr´esence d’artefacts dans les r´esultats, par exemple, du fait de la stratification des populations. De plus, cette approche est rendue compliqu´ee par l’h´et´erog´en´eit´e g´en´etique de la ma- ladie.

2.4.3 Les ´etudes d’association pang´enomiques

Le travail r´ealis´e dans le cadre de la pr´esente th`ese s’inscrit dans les ´etudes popu- lationnelles, et plus particuli`erement celles qui portent sur la cartographie du g´enome complet (i.e. les m´ethodes pang´enomiques). Lors de ces ´etudes, un ensemble d’indi- vidus sains et d’individus atteints par la maladie est g´enotyp´e. L’id´ee sur laquelle repose ces ´etudes est tr`es simple. Elle part du principe que la d´ecouverte des facteurs g´en´etiques causaux peut ˆetre r´ealis´ee en comparant les fr´equences all´eliques des SNP entre les deux populations d’individus. Lorsque l’all`ele d’un SNP est (l´eg`erement) plus fr´equent chez les patients atteints, alors il pourra ˆetre conclu que cet all`ele (ou une mutation non observ´ee tr`es proche) exerce une influence sur l’´etiologie de la maladie. Contrairement aux ´etudes g`enes-candidats qui ciblent un ensemble de g`enes poten- tiels [93], les ´etudes d’association pang´enomiques investiguent une grande partie du g´enome sans aucun a priori sur l’identit´e ou la localisation des loci impliqu´es. Cette approche repr´esente une strat´egie impartiale, non dirig´ee et exploratoire. Elle pr´esente l’avantage de permettre la d´ecouverte de nouvelles connaissances sur la position des facteurs causaux.

Malgr´e leur simplicit´e de mise œuvre, en comparaison des autres approches, les ´etudes d’association pang´enomiques (EAP) pr´esentent un certain nombre de difficul- t´es, notamment au niveau statistique. L’analyse de ces donn´ees g´en´etiques de grande dimension est complexe [5, 51, 58, 62]. La recherche simple d’association entre chaque marqueur et la variable indicatrice sain/malade se r´ev`ele difficile car elle entraˆıne la d´ecouverte d’un tr`es grand nombre de faux positifs (SNP statistiquement associ´es `a la maladie mais en r´ealit´e non impliqu´es dans son ´etiologie). Une solution simple consiste `

a r´ealiser un seuillage des associations afin de ne r´ecup´erer que les plus significatives, mais cela a pour effet de diminuer sensiblement la puissance statistique. Par ailleurs, les combinaisons de marqueurs g´en´etiques et de certains facteurs environnementaux sont susceptibles de jouer un rˆole important dans l’apparition de la maladie, ce qui engendre une explosion combinatoire dans les analyses `a r´ealiser. Enfin, il faut souli- gner la difficult´e de manipuler et de traiter des donn´ees aussi volumineuses.

2.5

Conclusion

Dans ce chapitre d’introduction au d´es´equilibre de liaison (LD) dans le contexte des ´etudes d’association pang´enomiques (EAP), nous avons soulign´e principalement

la complexit´e de la structure du LD et le rˆole majeur de ce dernier dans les EAP. C’est la raison pour laquelle, la mod´elisation fine du LD devrait garantir une analyse plus ais´ee lors des EAP, par exemple en r´eduisant la forte dimension des donn´ees. Des outils ont d´ej`a ´et´e d´evelopp´es dans cet objectif, dont certains proviennent du monde de l’intelligence artificielle et de l’apprentissage automatique, comme les mod`eles gra- phiques probabilistes [30, 44, 68] qui seront d´evelopp´es plus en d´etail dans la suite du document. Dans cette probl´ematique, une difficult´e importante `a surmonter demeure la mise en œuvre des m´ethodes d’apprentissage des mod`eles graphiques probabilistes dans le contexte de donn´ees de tr`es grande dimension, comme celles issues des EAP.

3

Les mod`eles graphiques probabilistes

Sommaire

3.1 Introduction . . . 26 3.2 Pr´eceptes . . . 26 3.2.1 Th´eorie des probabilit´es . . . 26 3.2.2 Th´eorie de l’information . . . 27 3.2.3 Th´eorie des graphes . . . 27 3.3 Introduction aux mod`eles graphiques probabilistes . . . 29 3.4 R´eseaux bay´esiens . . . 30 3.4.1 Introduction . . . 30 3.4.2 D´efinition . . . 33 3.4.3 Inf´erence probabiliste . . . 33 3.4.4 Apprentissage de param`etres . . . 34 3.4.4.1 Donn´ees compl`etes . . . 34 3.4.4.2 Donn´ees incompl`etes . . . 35 3.4.5 Apprentissage de structure . . . 36 3.5 R´eseaux de Markov . . . 38 3.6 Conclusion . . . 38

3.1

Introduction

L’objectif de ce chapitre est d’introduire les principales notions dans le domaine des mod`eles graphiques probabilistes (MGP). A titre de rappel, un ensemble de d´efi- nitions simples est d’abord fourni. D’une part, les d´efinitions concernent les concepts d’ind´ependance marginale et conditionnelle en th´eorie des probabilit´es, et les concepts d’entropie et d’information mutuelle en th´eorie de l’information. D’autre part, cer- taines d´efinitions relatives `a la th´eorie des graphes sont rappel´ees. Ensuite, deux grandes familles de MGP sont pr´esent´ees : les r´eseaux bay´esiens (RB) et les r´eseaux de Markov (RM). Seule la premi`ere famille, les r´eseaux bay´esiens, est abord´ee de mani`ere approfondie. Un exemple simple et pratique de mise en œuvre des RB est ensuite employ´e afin de donner l’intuition de ces mod`eles au lecteur non familier. Ensuite, les trois grandes probl´ematiques associ´ees `a l’utilisation des RB sont pr´esen- t´ees : l’inf´erence probabiliste, l’apprentissage de param`etres et enfin l’apprentissage de structure. L’accent est port´e sur l’apprentissage de param`etres dans le cadre de donn´ees incompl`etes (e.g. pr´esence de variables latentes) et sur l’apprentissage de structure. Les deux types d’apprentissage seront essentiels pour mieux comprendre l’algorithme d’apprentissage de mod`eles propos´e dans ce travail de recherche. En conclusion, les motivations de l’application des mod`eles graphiques probabilistes au traitement des donn´ees issues des ´etudes d’association pang´enomiques sont expos´ees et discut´ees.