Formellement, le d´es´equilibre de liaison (linkage disequilibrium, LD) est l’associa- tion non al´eatoire entre les all`eles de deux loci (ou plus) `a l’int´erieur d’une population donn´ee [57]. Le LD est estim´e g´en´eralement `a partir d’haplotypes, mais peut aussi s’estimer `a partir de g´enotypes. L’estimation du LD sera abord´ee dans la suite de la section. Les g´en´eticiens [66, 75] classent le LD en deux cat´egories : l’un tr`es fr´equent et s’observant sur de courtes distances, i.e. < 10 kilobases (kb), et l’autre plus rare et s’observant sur de longues distances (> 100kb).
A l’origine, le LD provient du lien physique existant entre les loci pr´esents sur un mˆeme chromosome et dont les all`eles sont transmis de g´en´erations en g´en´erations. Ce
AA AA AA AA AA aa aa aa aa Aa Aa AA Population étudiée aa AA aa aa aa Sous-populations
Figure 2.4: Illustration du ph´enom`ene de stratification de la population.
Pour le g`ene α, deux all`eles A et a existent. L’all`ele A est plus fr´equent dans la sous-population pr´esent´ee en haut de la figure que dans la sous-population pr´esent´ee en bas de la figure.
ph´enom`ene est appel´e ”liaison g´en´etique”. De nombreux facteurs peuvent accroˆıtre ou diminuer le LD. Le facteur le plus important est la recombinaison g´en´etique qui casse le lien physique entre loci d’un mˆeme chromosome. Avec le temps, i.e. au fur et `
a mesure des g´en´erations, des ´ev`enements de recombinaison entraˆınent la disparition du LD entre deux loci. ´Etant de nature al´eatoire, le nombre d’´ev`enements de recom- binaison entre deux loci va d´ependre de la distance les s´eparant. Plus les loci sont proches, plus le taux de recombinaison sera faible, et plus le LD diminuera lentement. Ce ph´enom`ene a notamment ´et´e mod´elis´e par Mal´ecot [54]. Un autre facteur impor- tant est le ph´enom`ene de stratification des populations, nomm´e aussi structure de la population, dans le contexte de la g´en´etique d’association. Ce facteur cr´ee un LD artefactuel entre deux loci, dˆu `a la pr´esence de plusieurs sous-populations pr´esentant des fr´equences all´eliques diff´erentes (voir figure 2.4), `a l’int´erieur de la population ´
etudi´ee. Par exemple, il est souvent `a l’origine du LD observ´e entre loci ´eloign´es de plus de 500 kb, ou parfois observ´e entre chromosomes diff´erents. D’autres facteurs influent sur le LD mais de mani`ere g´en´eralement moins significative, comme la d´erive g´en´etique, la s´election, la consanguinit´e, la mutation, le flux de g`enes et la taille de l’´echantillon ´etudi´e [47, 75].
L’analyse du LD sur les donn´ees haplotypiques a r´ev´el´e l’existence de zones pr´esen- tant de tr`es fortes corr´elations, appel´ees blocs haplotypiques ou haploblocs, s´epar´ees par de courtes zones montrant de faibles corr´elations [96–98]. Les travaux pr´ecurseurs de Daly et al. [19] sur une s´equence de 500 kb provenant de la r´egion 5q31 chez 256 patients atteints de la maladie de Crohn a r´ev´el´e le faible nombre d’haplotypes dif- f´erents `a l’int´erieur des blocs. Par exemple, pour 7 blocs s’´etendant sur une distance de 92 kb et contenant 31 SNP, seulement 4 des 231 haplotypes possibles ont ´et´e ob- serv´es pour 94% des chromosomes. Ces blocs mesurent en moyenne de 10 `a 20 kb, mais peuvent varier de quelques kbs `a plusieurs centaines de kbs. Cette structure en
2.3 Pr´eceptes de g´en´etique 15
Figure 2.5: Carte triangulaire de chaleur du d´es´equilibre de liaison (LD) d’une s´equence r´eelle de 500 kb.
G´enome humain, chromosome 1, r´egion [10 000 kb - 10 500 kb]. Le LD est ´evalu´e `a l’aide de la matrice triangulaire des d´ependances (mesur´ees par le LOD et le D0) pour chaque paire de SNP. Le LOD et le D0 sont des mesures du LD qui seront d´etaill´ees `a la fin de la section. Pour une paire de SNP donn´ee, plus la couleur est rouge (sombre), plus les SNP sont en LD.
blocs s’explique par le fait que les ´ev`enements de recombinaison ne sont pas distri- bu´es de mani`ere homog`ene sur une ´echelle fine : le taux de recombinaison peut varier grandement d’une position chromosomique `a une autre. Les blocs de LD sont donc des r´egions `a faibles taux de recombinaison s´epar´ees par des points chauds (hotspots, en anglais) de recombinaison. Cette structure en blocs peut ˆetre ais´ement visualis´ee `
a l’aide de la carte triangulaire dite de ”chaleur” (CTC) du LD par paires. Dans la figure 2.5, on peut discerner 2 haploblocs (triangles rouges) sur une s´equence de 500 kb. Les mesures de LD comme le D0 et le LOD seront pr´esent´ees par la suite dans la section.
Un aspect int´eressant du LD est qu’il r´eduit le nombre de marqueurs n´ecessaires pour capturer la grande majorit´e de la variation g´en´etique [47]. Ainsi, il est possible de ne g´enotyper qu’un nombre r´eduit de SNP afin de r´ealiser des ´etudes d’associa- tion. Le projet HapMap est issu en partie de cette observation. La notion de SNP sera d´etaill´ee en section 2.3.6, page 17.
Le projet international HapMap est n´e d’un partenariat de scientifiques et d’or- ganismes de financement regroupant le Canada, la Chine, le Japon, le Nigeria, le Royaume-Uni et les ´Etats-Unis. L’objectif est de d´evelopper une ressource publique afin d’aider les chercheurs `a d´ecouvrir les g`enes associ´es aux maladies humaines et `a la variabilit´e de la r´eponse aux m´edicaments. Le consortium du projet s’est fix´e les objectifs suivants [61] :
des SNP pour 4 populations humaines : 30 trios (compos´es d’un individu et de ses deux parents) d’Ibadan au Nig´eria (YRI), 30 trios de r´esidents de l’Utah ayant des origines du nord-ouest de l’Europe (CEU), 44 individus non apparen- t´es de Tokyo au Japon (JPT) et 45 individus Han de Beijing en Chine (CHB), – g´enotyper toutes les 5000 paires de bases en moyenne un SNP commun, i.e.
pr´esentant une fr´equence de 5% dans la population,
– permettre la d´etermination d’un ensemble de tagSNPs (SNP ´etiquettes) : l’iden- tification de ces tagSNPs est destin´ee `a aider le g´en´eticien lors de la recherche des mutations causales, en r´eduisant par exemple le nombre de tests d’asso- ciation SNP-maladie `a r´ealiser et en am´eliorant ainsi la puissance de d´etection (capacit´e `a d´etecter) des mutations causales,
– aider au d´eveloppement de technologies de g´enotypage, d’outils d’analyse et d’´etudes g´en´etiques sur les maladies complexes.
Les mesures de LD sont des mesures d’association qui quantifient l’´ecart entre les fr´equences haplotypiques observ´ees et celles attendues sous hypoth`ese d’ind´ependance entre les all`eles (hypoth`ese nomm´ee ´equilibre de liaison) [57]. Nous nous focaliserons sur les mesures de LD les plus couramment utilis´ees : D, D0, r2 et LOD. Ce sont des mesures r´ealis´ees sur des paires de loci.
Prenons l’exemple suivant : deux loci α et β poss`edent chacun deux all`eles, A et a, et B et b, respectivement. Soit pA, pa, pBet pbles fr´equences all´eliques et pAB, pAb, paB
et pab les fr´equences haplotypiques. Une mesure tr`es simple du LD consiste `a ´evaluer
la diff´erence entre la fr´equence observ´ee d’un haplotype donn´e et celle attendue sous hypoth`ese d’ind´ependance entre les loci α et β. Cette mesure s’appelle le coefficient de d´es´equilibre de liaison (D) et sa formule est la suivante [23] :
D = pAB− pApB= pab− pa pb. (2.1)
Plus D est ´elev´e, plus les loci sont en d´es´equilibre de liaison. Des mesures stan- dardis´ees ont ´et´e propos´ees afin de disposer de valeurs comprises entre −1 et 1. D0 et r2 sont les plus usuelles. D0 a ´et´e introduit par Lewontin [50] et sa formule est la suivante : D0= D Dmax avec Dmax = min(pA pb; pa pB) si D > 0 min(pa pb; pA pB) si D < 0.
D0 a la propri´et´e de prendre les valeurs −1 et 1 lorsqu’un ou plusieurs des haplo- types sont absents dans la population. Prenons l’exemple pr´esent dans le tableau 2.1. Dans cet exemple, D = −0, 0593 et D0 = −1. Nous observons qu’un des quatre haplotypes est absent de la population : on parle alors de d´es´equilibre complet. Ainsi, D0 n’indique pas si le premier locus porte toute l’information du second. De surcroˆıt, des valeurs de D0 inf´erieures `a 1 (ou sup´erieures `a −1) n’ont pas d’interpr´etation pr´ecise quant au niveau de d´ependance existant entre les loci, et d´ependent de la
2.3 Pr´eceptes de g´en´etique 17
b B
a 0.1029 0.0719
A 0.8252 0
Tableau 2.1: Exemple de d´es´equilibre complet.
taille de l’´echantillon. C’est la raison pour laquelle r2 est pr´ef´er´e `a D0 car il mesure la quantit´e d’information que fournit un locus sur l’autre. Sa formule est la suivante :
r2 = D
2
√
pApa pB pb
.
Avec r2, une valeur de 1 signifie que le premier locus porte toute l’information du se- cond locus, et vice versa. Dans ce cas, seuls deux des quatre haplotypes possibles sont observ´es. Cette situation est appel´ee d´es´equilibre parfait. Prenons l’exemple pr´esent dans le tableau 2.2.
b B
a 0.5763 0
A 0 0.4237
Tableau 2.2: Exemple de d´es´equilibre parfait.
Ici, D = 0, 2442, D0= 1 et r2 = 1, alors que pr´ec´edemment r2´etait ´egal `a 0, 6044. Enfin, une autre mesure de LD fr´equemment employ´ee est le logarithme du rapport des chances (log of odds), not´e LOD. Celui-ci ´evalue le logarithme d´ecimal du rap- port entre la vraisemblance sous hypoth`ese de LD et la vraisemblance sous hypoth`ese d’´equilibre de liaison.
Dans la pratique, nous n’avons g´en´eralement acc`es qu’`a la connaissance des g´e- notypes lors des ´etudes populationnelles et nous ne pouvons donc pas mesurer direc- tement le d´es´equilibre de liaison sur les haplotypes. Afin de contourner ce probl`eme, les m´ethodes d’inf´erence d’haplotypes peuvent ˆetre employ´ees.