6 Andelene samles på en hånd
6.3 Gjeldende rett
3.1. – Définition de la lexicométrie
Lorsque les corpus constitués par le chercheur sont vastes, leur analyse devient quasiment impossible sans recourir à la méthode automatisée. Sans les outils informatiques adéquats, le travail sur les gros corpus relève fréquemment d’une « lecture superficielle » et « d’impressions linguistiques » (Mayaffre, 2002),
59 Ainsi analyse du discours assistée par ordinateur n’est pas synonyme de lexicométrie ou de
textométrie (ces deux derniers termes n’étant eux-mêmes pas totalement équivalents). Pour notre
part, pour qualifier notre démarche, nous utiliserons indistinctement dans le cadre de ce travail les termes lexicométrie, textométrie, analyse du discours assistée par ordinateur, et même parfois
parfois trompeuses. Si notre corpus est loin d’être considéré comme un gros corpus, par rapport à d’autres corpus qui comptent plusieurs millions d’occurrences, il est déjà suffisamment vaste (environ 300000 occurrences) pour justifier l’utilisation d’une approche lexicométrique et pour une meilleure maîtrise des objets. Sans relever ici les intérêts et limites de l’analyse informatisée du discours, répétons qu’elle donne au chercheur les moyens d’une exploration méthodique et systématique à travers une lecture hypertextuelle d’une part et différents comptages et probabilisations statistiques, représentés de façon suggestive à l’aide de graphiques, d’autre part.
Selon Lebart et Salem, ces méthodes permettent ainsi de répondre à des questions telles que « quels sont les textes les plus semblables en ce qui concerne le vocabulaire et la fréquence des formes utilisées ? Quelles sont les formes qui caractérisent chaque texte, par leur présence ou leur absence ? » (Lebart et Salem, 1994 : 135), questions qui peuvent aussi être posées en ce qui concernent les lemmes, les parties du discours, les enchaînements syntaxiques, les segments figés60 ainsi que pour l’évolution diachronique de chacune de ces unités lexicométriques.
La lexicométrie est définie par André Salem comme « toute une série de méthodes qui permettent d’opérer des réorganisations formelles de la séquence textuelle, des comptages et des comparaisons documentaires ou statistiques sur le vocabulaire d’un texte ou de plusieurs textes réunis en corpus » (Salem, 1986 : 6). Que le corpus étudié soit chronologique ou pluri-locuteur, « la lexicométrie confronte les emplois des unités du discours » (Bonnafous et Tournier, 1995 : 69) entre les différentes parties du corpus. Bien entendu, et c’est là l’un des reproches fait aux méthodes informatisées d’analyse des données textuelles, « on ne peut, au départ d’une étude lexicométrique, que cumuler, confronter, réunir ou opposer des occurrences de formes textuelles » car « le sens en contexte est réfractaire à toute systématicité » (Bonnafous et Tournier, 1995 : 69).
60 En fonction des différents logiciels utilisés. Pour notre part et comme nous aurons l’occasion de
le mentionner, nous ne travaillerons ici que sur les formes graphiques, qu’elles soient considérées dans leur unicité, rassemblées dans des groupements thématiques (groupes de formes) ou appréhendées à travers des enchaînements syntagmatiques redondants (segments répétés).
Le travail de commentaire et d’interprétation sur le sens ne vient donc que dans un deuxième temps. Par ailleurs, une autre des critiques qui concernait « la vanité des traitements (statistiques ou non), portant sur des corpus bruts; traitements accusés de désincarner les textes en travaillant sur des unités (le mot graphique) sans réelle pertinence linguistique » (Mayaffre, 2002), et par conséquent le problème de l’homonymie de certaines formes, n’est plus aussi pertinente qu’il y a quelques années car les progrès des programmes de lemmatisation et d’annotation ainsi que celui des dictionnaires qui leurs sont associés commencent à parer à ce genre de critiques. Les méthodes informatisées que nous utiliserons reposent sur une série de principes de bases que nous présentons ci-dessous61.
3.2. – Concepts et méthodes
La lexicométrie, pour effectuer des comptages et des comparaisons dans un corpus, doit être mise en œuvre à partir d’une partition de celui-ci. Le corpus, nécessairement clos et constitué de la même façon que pour une analyse du discours (voir infra : Chapitre 3), doit être suffisamment vaste, contrastif et partitionné, c’est-à-dire découpé en parties répondant à l’objectif de recherche, qu’elles soient naturelles (chapitres de livre, discours, etc.) ou qu’elles suivent un regroupement spécifique (genre, chronologie, auditoire, etc.). La lexicométrie procédera donc au dénombrement puis à la comparaison d’unités lexicométriques dans chacune des parties qui résultent d’une partition du corpus.
Une unité lexicométrique62 présente dans un corpus – cela peut être une forme graphique, un lemme (mot ramené à sa racine), une partie du discours, un segment phrastique (segment répété) mais aussi une poly-forme, un quasi- segment, un groupe de formes, etc. – aura alors nécessairement une fréquence, correspondant à son nombre total d’apparition dans l’ensemble du corpus, et des sous-fréquences, correspondant à son nombre d’apparition dans chacune des parties issues de la partition du corpus.
61
Les premiers chapitres de l’ouvrage de Salem (1987) proposent une présentation très accessible de la terminologie et des principes de base de la lexicométrie.
On appelle occurrence une apparition d’une unité lexicométrique dans un corpus ou une partie du corpus. Ainsi, une forme graphique, comme « Cameroun », a 1524 occurrences dans le corpus Biya soit une fréquence de 1524. Par conséquent, la taille d’un corpus est exprimée en nombre d’occurrences. Notre corpus compte 355855 occurrences de formes graphiques.
Le nombre de formes graphiques d’un corpus exprime le nombre de "mots" différents, ou vocabulaire, du corpus, par opposition à son nombre d’occurrences. Notre corpus compte 14415 formes graphiques, c’est-à-dire 14415 "mots différents" dont les fréquences sont comprises entre 1 et 21891, ce qui donne à notre corpus la taille de 355855 occurrences. La forme « de », de fréquence 21891, représente la forme de fréquence maximale ou Fmax de notre corpus, c’est-à-dire qu’il s’agit de la forme la plus utilisée par le locuteur dans le corpus. Forme la plus utilisée, elle est de rang 1, suivie au rang 2 par un autre mot-outil, la conjonction « et », avec 12277 occurrences.
Les formes les plus fréquentes sont presque toujours des mots-outils (conjonctions, déterminants, pronoms…) par opposition aux formes lexicales – parfois aussi appelées formes pleines (noms, adjectifs, verbes…) – qui n’apparaissent dans l’index hiérarchique des formes qu’après les mots-outils les plus fréquents. Ainsi, dans l’index hiérarchique (liste des formes graphiques, ou des lemmes, classé par ordre de fréquences décroissantes), la première forme lexicale est « pays » qui, avec une fréquence de 1687, se situe au 27ème rang. Il s’agit donc de la 27ème
forme graphique la plus utilisée. L’index alphabétique, quant à lui, présente la liste des formes ou des lemmes du corpus classée par ordre alphabétique.
Le nombre de formes par rapport au nombre d’occurrences peut renseigner sur la richesse lexicale ou la variété du vocabulaire d’un corpus. Pour un corpus de même taille, c’est-à-dire avec un nombre d’occurrences identiques, un nombre plus important de formes indiques que les formes ont, en moyenne, une fréquence plus basse ou, en d’autres termes, que les formes sont moins fréquemment répétées. Étant donné que le corpus a la même taille, le vocabulaire est donc plus varié. Ce genre de diagnostic peut ainsi être fait pour différentes parties d’un corpus, amenant donc à évaluer l’évolution de la richesse lexicale d’un même
locuteur au fil des ans ou à comparer la richesse lexicale avec d’autres locuteurs différents.
Pour un corpus chronologique, l’accroissement chronologique tend à mesurer l’apport en formes nouvelles au fil des ans par rapport au nombre de formes déjà utilisées. On peut donc déterminer si le renouvellement du vocabulaire tend à s’accélérer, indice de renouvellement thématique et d’innovation lexicale, ou au contraire, à ralentir, marque d’un épuisement du vocabulaire. La richesse du vocabulaire a donc à voir avec le nombre et le rang des formes du corpus : ainsi, le nombre d’hapax (formes de fréquence 1) et sa variation en fonction des parties du corpus peut renseigner, même si c’est de façon basique, sur la richesse du vocabulaire de ce corpus.
Une fois ces premières notions explicitées et acquises, considérons alors les unités lexicométriques attestées dans le corpus en fonction de leur ventilation (c’est-à-dire répartition) entre les différentes parties du corpus. On obtient de la sorte une suite de sous-fréquences correspondant au nombre d’occurrences de l’unité lexicométrique dans chacune des parties du corpus. Les sous-fréquences obtenues seront ainsi listées puis comparées et éventuellement probabilisées. Le travail de probabilisation, reposant sur des calculs complexes, vise à donner à l’analyste un diagnostic de spécificité. Ce diagnostic repose sur les quatre paramètres suivants – T, t, F, f – que sont :
- la taille du corpus (T) ;
- la taille de la partie considérée (t) ;
- la fréquence totale (i. e. dans l’ensemble du corpus) de l’unité ou du trait linguistique considéré (F) ;
- la sous-fréquence de l’unité ou du trait linguistique considéré dans la partie considérée (f) ;
Ce diagnostic de spécificité peut être effectué sur chacune des unités lexicométriques du corpus (formes graphiques, lemmes, groupes de formes…) et indique à l’analyste du discours si l’unité lexicométrique observée est :
- surreprésentée dans une partie du corpus compte-tenu de sa fréquence dans l’ensemble du corpus ; cela signifie que sa fréquence réelle – constatée – dans
cette partie du corpus est supérieure à sa fréquence théorique (ou fréquence attendue en fonction de la règle de trois)63 ;
- sous-représentée dans une partie du corpus compte-tenu de sa fréquence dans l’ensemble du corpus ; ce qui signifie que sa fréquence réelle, attestée, dans cette partie du corpus est inférieure à sa fréquence théorique ;
- représentée de façon homogène dans cette partie du corpus compte-tenu de sa fréquence dans l’ensemble du corpus.
Ainsi, on parlera de :
- spécificité positive s’il s’avère que l’unité lexicométrique est surreprésentée dans la partie considérée ;
- spécificité négative s’il s’avère que l’unité lexicométrique est sous- représentée dans la partie considérée ;
- banalité s’il avère que la fréquence de l’unité lexicométrique dans la partie considérée est celle que l’on peut statistiquement attendre compte-tenu de sa fréquence dans l’ensemble du corpus.
Ces différentes diagnostics seront donc marqués respectivement par les signes : E+, E-, b. Surtout, ils sont suivis d’un indice chiffré visant à marquer l’importance ou la significativité, déduite de la probabilité statistique, de cette sur- ou sous-représentation : E+12 ; E-2 ; E+7, etc.64 En effet, E+12 signifiera alors une spécificité positive de l’unité lexicométrique telle qu’il y ait 10-12
chance pour que la fréquence de cette unité lexicométrique dans la partie du corpus considérée soit supérieure ou égale à celle qui est effectivement constatée. En d’autres termes cela signifie que, dans ce cas de figure, il était peu probable65 que l’unité lexicométrique étudiée ait eu une fréquence aussi haute et donc qu’il y aurait eu de nombreuses chances pour qu’elle ait eu une fréquence plus faible : elle se trouve surreprésentée de façon certaine dans cette partie du corpus.
63 La fréquence théorique est calculée, avec la règle de trois, selon les paramètres T, t, F, f,
évoqués ci-dessus ; la fréquence réelle est la fréquence effectivement constatée dans le corpus.
64 Par commodité, au cours de l’analyse, lorsque l’on aura affaire aux spécificités, seul sera
indiqué l’indice chiffré de spécificité (+7, -10, etc.).
65 Plus précisément, il y a 1 chance sur 1 000 000 000 000 ; en d’autres termes 1 chance sur 1000
De la même façon, un coefficient de E-2 indiquera une spécificité négative, soit une sous-utilisation statistique de l’ordre de 10-2 ; en d’autres termes, 1 chance sur 100 que la fréquence de l’item en question dans la partie prise en compte soit inférieure ou égale à la fréquence réelle et constatée. On conclura donc qu’en fonction des paramètres T, t, F, f, il est peu probable que l’item affecté d’une spécificité, négative, d’E-2 eût pu avoir une fréquence inférieure à la fréquence attestée dans la partie du corpus.
Prenons maintenant un exemple tiré de notre corpus. Considérons notre corpus découpé – partitionné – en périodes d’une année, soit 21 périodes, de 1982 à 2002. Prenons une forme graphique, par exemple démocratie. Avec une fréquence absolue de 424 sur l’ensemble du corpus, elle se trouve utilisée, à quelques exceptions près, presque chaque année, dans des quantités variables. Mais, comment savoir si ces variations de fréquence sont significatives, ou, en d’autres termes, si ce mot a été l’objet d’un intérêt particulier durant une ou plusieurs années ? Le calcul des spécificités permettra de mettre au jour les parties du corpus où cette forme lexicale est statistiquement plus utilisée66 que ne le laissait prévoir ses 424 occurrences totales.
Ainsi, après plusieurs calculs, le diagnostic fait ressortir une spécificité positive de cette forme pour les années 1990, 1991 et 199267, avec respectivement des coefficients de E+12, E+32 et E+15. En d’autres termes, la forme démocratie est statistiquement sur-utilisée dans le discours de Paul Biya durant ces trois années et cette sur-utilisation, vu les coefficients statistiques – 1 chance sur 10-12 pour l’année 1990, soit, en fonction de la taille du corpus68
, de la taille de la partie 1990, de la fréquence totale de démocratie (424 occ.) et de la fréquence de démocratie dans la partie 1990 (50 occ.) 1 chance sur 1000 milliards – n’est pas due au hasard. Si l’on se réfère à l’arrière-plan socio-historique qui a été présenté au chapitre 1, on constate alors que les trois années où démocratie est le plus sur- utilisée correspondent à la période qualifiée par Kamé de « crise démocratique » (Kamé, 2007 : 117 et ss) à l’issue de laquelle le Cameroun a vu s’instaurer le
66
Par rapport à la taille de la partie et à la taille du corpus, on l’aura compris. Cf. supra.
67 Mais aussi et dans une moindre mesure en 1996 et 1999.
multipartisme. À travers cet exemple, on subodore déjà l’intérêt que peut prendre cette méthode, à la base de la lexicométrie, pour explorer le corpus.
La méthode des spécificités peut aussi être appliquée d’une façon légèrement différente. En effet, au lieu de sélectionner un item et d’effectuer son diagnostic de spécificité, c'est-à-dire d’observer dans quelles parties du corpus il est surreprésenté et dans quelles autres il est sous-représenté69, on peut choisir d’étudier une partie du corpus – dans notre cas, l’année 1990 par exemple – et de la confronter au reste du corpus et dresser la liste de toutes les formes spécifiques de cette partie. Les calculs sont les mêmes, sauf que dans un cas on part d’une forme graphique et dans l’autre, d’une partie du corpus. De cette méthode dérive, d’une certaine façon, le calcul des cooccurrences.
L’intérêt du calcul des cooccurrences70
est qu’il permet d’aborder la dimension syntagmatique du matériau textuel en décrivant les emplois et les associations syntagmatiques d’un item. En fait, bien que les lois statistiques utilisées soient les mêmes, il ne s’agit plus de chercher à calculer les spécificités d’un mot dans les différentes parties d’un corpus ni, au contraire, de calculer la liste des mots spécifiques d’une partie du corpus par rapport à celui-ci dans son entièreté. Au lieu de cela, on choisit la forme-pôle à étudier et l’on partage le corpus en deux : d’une part, l’ensemble des phrases71 contenant une ou plusieurs occurrences de la forme-pôle et de l’autre, l’ensemble des phrases où n’apparaît pas la forme-pôle. À partir de là, on considère ces deux ensembles comme s’il s’agissait d’un corpus partitionné en deux parties quelconques et l’on applique le calcul des spécificités à l’ensemble composé des phrases comprenant la forme- pôle. La liste des spécificités positives qui en résulte se compose des mots statistiquement sur-utilisés dans cet ensemble, c’est-à-dire dans les phrases contenant la forme pôle : il s’agit alors des cooccurrences spécifiques de celle-ci, de son univers lexical. Au contraire, la liste des cooccurrences négatives constitue
69 Ou, troisième possibilité, d’une utilisation « banale » au sens lexicométrique. Cf. supra.
70 La procédure décrite ici est simplifiée. Ajoutons par ailleurs qu’il existe différentes lois
statistiques pouvant être utilisées dans les calculs de spécificités et de cooccurrences ainsi que différentes procédures et paramètres de calcul des cooccurrences. Cf. en particulier Lafon (1984).
71 Au sens lexicométrique du terme, c'est-à-dire une suite d’occurrences séparée par un signe de
les répulsions lexicales de la forme-pôle c’est-à-dire les formes statistiquement sous-utilisées dans son cotexte.
Enfin, parmi les principales méthodes que nous utiliserons, évoquons les analyses multidimensionnelles telle l’analyse factorielle des correspondances. Sans rentrer dans les détails des calculs, par ailleurs fort compliqués, soulignons- en le principe général : il s’agit de représenter sur un plan les proximités entre les parties du corpus en fonction de la ventilation ou répartition du vocabulaire dans chacune d’elles. Pour en schématiser les principes, un tableau est composé avec en lignes les formes présentes dans le corpus (i.e. l’index) et en colonne les parties du corpus. À l’intersection de la ligne i (représentant la forme i) et de la colonne j (représentant la partie j du corpus), on trouve le nombre d’occurrence de la forme i dans la partie j. Cela est valable pour toute les lignes, les colonnes et leurs intersections, et donc pour toute les formes et les parties du corpus. Se trouve ainsi résumée dans ce tableau la composition lexicale du corpus : dans chacune des lignes, la ventilation des formes, et dans chacune des colonnes, la composition lexicale des parties.
L’analyse factorielle consiste en un algorithme décomposant ce tableau afin de le simplifier tout en perdant le moins d’information possible, dans le but d’obtenir un tableau qui soit représentable sur un plan en deux dimensions. Le tableau final obtenu après décomposition factorielle synthétise l’information contenue dans le tableau initial – en d’autres termes, la composition lexicale de chacune de parties du corpus et la ventilation de chacune des formes. Ce tableau final peut être représenté sur un plan où sont projetées chacune des lignes et chacune des colonnes ; les proximités sur le plan entre les points-colonnes reflèteront les proximités entre les colonnes du tableau, c’est-à-dire les proximités entre les parties du corpus en fonction de leur composition lexicale ; les proximités sur le plan entre les points-lignes reflèteront les proximités entre les lignes du tableau, autrement dit, les proximités entre les formes du corpus en fonction de leur ventilation dans chacune des parties du corpus.
Si les principes généraux des méthodes mobilisées ont été présentés ci- dessus, d’autres méthodes lexicométriques et termes techniques seront utilisés ponctuellement et donc présentés à ce moment. Ainsi, les spécificités font l’objet
de différentes représentations graphiques comme les graphes de ventilation et les cartes des sections. Les cooccurrences, visant, nous l’avons vu, à mettre au jour les liens non-aléatoires entre deux formes d’un corpus, seront particulièrement mises à profit tout au long de notre étude. Nous avons vu en effet au §2 que le choix de l’ordonnancement des mots pouvait relever de l’argumentation. En ce sens, les segments répétés (SR) – un segment étant défini comme toute suite d’occurrences non séparées par un délimiteur de séquences (ponctuation), les segments dont la fréquence est supérieure ou égale à deux sont considérés comme segments répétés – seront aussi commentés.
Pour terminer, indiquons qu’il ne s’agissait pas d’exposer en détails et de manière approfondie les concepts et méthodes lexicométriques, mais de présenter la terminologie essentielle à la compréhension de notre analyse ainsi que les principes de base de celle-ci. Pour des exposés détaillés des méthodes lexicométriques, on pourra consulter avec intérêt la thèse d’André Salem (1993) ainsi que différents ouvrages publiés – en particulier ceux de Charles Muller (1992 a et b) de Ludovic Lebart et André Salem (1994) et de Pascal Marchand (1998). Mais ces méthodes ne pourraient, pour la plupart d’entre-elles, être utilisées sans le recours à l’informatique et à des logiciels spécifiques. Pour notre analyse, deux logiciels seront utilisés que nous présentons succinctement dans les pages qui suivent.
3.3. – Logiciels utilisés
De nos jours, il existe un nombre important de logiciels lexicométriques, au