D’un point de vue de la lexicométrie, trois aspects statistiques constituent les caractères structurels que nous allons examiner maintenant dans les résultats d’exploration de notre corpus.
3.1. – L’accroissement du vocabulaire
De longue date, l’étude du style des écrivains a mobilisé l’attention des chercheurs qui se sont mis à réfléchir sur la diversité du vocabulaire comme indice de caractérisation d’un écrivain. Parmi les notions et les méthodes mises au point figurent en bonne place l’accroissement du vocabulaire, la richesse lexicale et les gammes de fréquences permettent de mesurer l’amplitude du lexique mobilisé par un locuteur, l’épuisement thématique d’un texte ou la répétitivité d’un discours. Le développement des outils informatiques a depuis plusieurs décennies développé considérablement la recherche en ce domaine et permis de qualifier les méthodes permettant de représenter graphiquement ces différents indices.
En effet, l’accroissement du vocabulaire (Lebart et Salem, 1994 : 55-56) consiste à mesurer et à représenter graphiquement l’« apparition de formes nouvelles au fur et à mesure que l’on avance dans la lecture du corpus » (Habert, Nazarenko et Salem, 1997 : 190). Le graphique suivant représente la courbe d’accroissement du vocabulaire dans le corpus Biya partitionné par année.
Figure 5 : Accroissement du vocabulaire et courbe des hapax (partition année)
== Guide de lecture – Figure 5 : Accroissement du vocabulaire == L’axe vertical indique le nombre V de formes différentes.
L’axe horizontal indique le nombre T d’occurrences du corpus.
En d’autres termes, la courbe nous renseigne, pour chaque "instant" T du corpus, sur le nombre V de formes différentes.
Globalement, on peut dire que la courbe ne présente pas de caractères particuliers et correspond assez bien aux modèles généraux d’accroissement du vocabulaire. De très légères irrégularités peuvent être remarquées (par exemple à partir de l’année 1986 [n°5] jusqu’à l’année 1990-1991 [n°9-10]) mais qui ne sont pas suffisamment marquées pour être significatives. Sur le même graphique nous avons représenté l’apparition, au fur et à mesure de la "lecture" du corpus, des hapax94. Selon Marchand (1998 : 33), cela peut se révéler intéressant dans la mesure où « le nombre d’hapax donne une indication sur la richesse du vocabulaire employé. […] quelqu’un qui emploie beaucoup d’hapax révèle un souci d’éviter la répétition ». Ici, il ne s’agit pas d’employer plus ou moins d’hapax sinon de mesurer l’utilisation régulière ou non des hapax et donc la variation chronologique du « souci d’éviter la répétition ». Or il apparaît que les hapax sont équitablement répartis, de façon homogène tout au long du corpus, cet indice ne nous renseigne pas des périodes de répétition plus ou moins intense.
Plus intéressantes sont les courbes d’accroissement comparé du vocabulaire de quatre périodes de cinq années de notre corpus. La figure nous indique que la première période présente un lexique qui tend à se renouveler un peu moins avec le temps que les trois autres périodes. En réalité, cela peut être dû à une prise de parole abondante durant cette première période, et relativement à l’ensemble du corpus Biya. En effet, des prises de paroles fréquentes et rapprochées amènent le locuteur à reprendre plus fréquemment les mêmes thématiques que si les prises de paroles publiques sont plus rares et dispersées chronologiquement (ne serait-ce que par l’effet des situations de communication sur le vocabulaire, qui lorsqu’elles sont proches chronologiquement amènent le locuteur à utiliser un vocabulaire plus homogène que lorsqu’elles sont chronologiquement éloignées). Ainsi, pour l’utilisation de certaines thématiques, parle-t-on parfois de l’"ère du temps", et du point de vue de la lexicométrie de "temps lexical"). Cet élément peut avoir un
impact sur l’accroissement du vocabulaire qui tend à se renouveler plus lentement (respectivement au nombre d’occurrences) durant la première période. La courbe représentée sera donc plus aplatie, mais plus longue.
Figure 6 : Accroissement comparé du vocabulaire (partition lustre).
3.2. – La répétitivité et le figement du discours
Ces mesures des fréquences effectuées au fil des mots, c’est-à-dire sans partition95 du corpus ni probabilisation, gagnent à être complétées par d’autres qui mettent en jeu des calculs de probabilité. La répétitivité et le figement du discours peuvent être appréhendés de façon rudimentaire par la ventilation des hapax et des segments répétés96 dans le corpus partitionné de différentes façons. Ainsi, afin
95
Les partitions n’apparaissent, dans les figures 6 et 7, qu’à titre indicatifs ; autrement dit, elles n’ont pas de véritable influence sur les résultats.
96 Les segments répétés sont définis comme « toutes les suites d’occurrences non séparées par un
délimiteur de séquence » (virgule, point-virgule, deux-points, points d’exclamation, d’interrogation et de suspension) dont « la fréquence est supérieure ou égale à deux dans le corpus » (Salem, 1987 : 50). Ils se caractérisent théoriquement par une longueur ≥2 et une fréquence ≥2.
d’avoir une rapide vue d’ensemble de ces indices (hapax, SR), on peut observer la probabilisation de la fréquence de ceux-ci dans le corpus partitionné par période de cinq années (Figure 7 ; hapax à gauche et SR à droite ; chaque bâtonnet représente chronologiquement une des quatre périodes de cinq années).
Figure 7 : Hapax et SR dans le corpus (spécificités, partition lustres)
On observe que les deux indices sont complémentaires. En effet, alors que la première période (A8287) connaît un déficit d’hapax (-4), c’est-à-dire de mots rares, elle contient un excédent de segments répétés, c’est-à-dire, dans le cas présent, de segments phrastiques répétés contenant au moins quatre éléments (L≥4). La dernière période semble donc plus propice, pour Paul Biya, à l’innovation lexicale alors que la première période a connu un discours présidentiel plus répétitif avec une forte tendance au figement. Mais, il ne s’agit là bien entendu que de tendances générales et si l’on observe les mêmes indices sur le corpus partitionné non pas en quatre périodes de cinq années mais en vingt-et- une parties représentant chacune une année, on est face à un diagnostic plus fin mais en même temps moins aisé à établir.
Figure 8 : Hapax et SR dans le corpus (spécificités, partition années)
Durant la première période de cinq années, seules trois années – dont deux en particulier – se distinguent par leur forte sloganisation (répétitivité segmentale) : 1983 (+82), 1987 (+58) et 1986 (+5) ; tandis que certaines (1984 et 1985) se démarquent même par un déficit de SR. D’où l’intérêt de varier les échelles d’observation – les partitions – afin de déceler plus finement la localisation d’un fait linguistique. Néanmoins, la tendance générale soulignée précédemment n’est pas incorrecte – seulement imprécise – car de fait on constate qu’aucune année après 1987 – c’est-à-dire après la première période de cinq années – ne connaît une spécificité positive des SR de L≥4. Quant à la dernière période (1998-2002), la partition par années montre qu’elle est en effet exclusivement marquée, à l’exception de 2001, par un surplus d’hapax.
Avant de clore l’observation de ces résultats d’exploration lexicale, il est important de préciser que certains indices rudimentaires renseignant sur la répétitivité et le figement du discours de Biya. Pour cela nous pouvons procéder aux mêmes mesures sur le corpus partitionné en fonction de l’auditoire. Rappelons que nous avons distingué sept catégories d’auditoire (cf. supra) et l’on
peut maintenant observer les caractères quantitatifs de base en fonction des auditoires.
Figure 9 : Hapax et SR dans le corpus (spécificités, partition types)
D’emblée se détache de la figure les discours prononcés devant les diplomates en poste ou en visite au Cameroun. Il s’agit de l’unique auditoire devant lequel les SR sont sur-utilisés, très probablement en raison du caractère ritualisé et protocolaire de telles allocutions. À l’opposé, les discours à la Nation ou encore au Parti, qui sont plus marqués par la situation d’énonciation et les événements ou thématiques du moment, apparaissent comme moins figés par le déficit de SR qu’ils connaissent.
3.3. – La série textuelle chronologique et l’effet Guttman
L’analyse factorielle des correspondances (AFC) est l’une des principales techniques de la statistique textuelle. Elle permet de représenter sur un plan les proximités entre les différentes parties d’un corpus. Le principe, rapprocher les parties qui ont un profil lexical proche c’est-à-dire qui partagent un plus grand
nombre de mots en commun, est aussi simple que les calculs et les algorithmes en sont complexes97. L’AFC permet alors de représenter dans un espace à deux dimensions les proximités entre les parties d’un corpus en fonction de la distribution du stock lexical du corpus entre ces différentes parties. Parmi les études qui ont mobilisées cette technique sur des séries textuelles chronologiques, certaines ont mis au jour le phénomène du temps lexical, attestation dans les données textuelles de l’effet Guttman 98
. Ainsi, selon Salem,
de nombreuses études lexicométriques réalisées à partir de telles séries ont mis en évidence l’importance d’un même phénomène lié à l’évolution d’ensemble du vocabulaire au fil du temps : "le temps lexical". En effet, le renouvellement du vocabulaire constitue, la plupart du temps, la caractéristique lexicométrique fondamentale d’une série chronologique. Tout émetteur produisant des textes sur une période de temps assez longue utilise sans cesse de nouvelles formes de vocabulaire qui viennent supplanter, du point de vue fréquentiel, d’autres formes dont l’usage se raréfie. […] Il s’ensuit que les vocabulaires des parties qui correspondent à des périodes consécutives dans le temps présentent en général plus de similitudes entre eux que ceux qui correspondent à des périodes séparées par un intervalle plus long. […] un grand nombre des formes employées dans les STC suivent un schéma d’évolution chronologique progressif. Leurs apparitions, disparitions ou fluctuations s’effectuent de manière suffisamment organisée, au regard du temps, pour que les périodes consécutives apparaissent plus proches dans l’emploi qu’elles font du vocabulaire que les périodes séparées par un intervalle de temps plus long (Salem, 1994).
97 Cf. Lebart et Salem (1994 : 79-109) ; Marchand (1998 : 54-77) ou Prost (1974 : 77-91). 98
Cf. Salem (2009) Le phénomène du temps lexical, défini ci-dessus par A. Salem, est considéré comme l’attestation de l’effet Guttman dans les données textuelles. L’effet Guttman apparaît sur le plan factoriel lorsque les données qui ont été soumises à l’analyse statistique dans le tableau initial – dans le cas des données textuelles, il s’agit du TLE ou tableau lexical entier – sont dominées par l’existence d’une gradation entre les agrégats. Il en résulte « des résultats d’un type particulier » (Lebart et Salem, 1994 : 211), visibles sur une AFC par une disposition des points-colonnes en forme de parabole.
L’AFC effectuée sur le corpus Biya donne à voir une polarisation entre d’une part la première période, 1982-1987, et d’autre part les trois autres périodes, correspondant aux années 1988-2002. Suivant l’axe vertical, c’est la deuxième période qui se trouve individualisée par rapport au reste du corpus. D’une façon générale, il apparaît que le corpus obéit aux lois générales de renouvellement du stock lexical, en particulier du renouvellement chronologique du vocabulaire. Nous observons aussi que le vocabulaire se trouve particulièrement renouvelé entre la première et la deuxième période, chacune à une extrémité du premier axe, et que le renouvellement est beaucoup plus régulier entre les trois dernières parties. Ces éléments seront précisés au chapitre 5.
Figure 10 : AFC effectuée sur le corpus Biya (partition lustres)99
Conclusion
Au terme de ce chapitre, nous avons présenté le matériau sur lequel va s’effectuer notre analyse. Nous avons constitué le corpus puis testé, étape par étape, en prenant en compte l’objet de notre recherche, l’évolution chronologique et l’adaptation à l’auditoire du discours de Paul Biya durant les vingt premières années de sa permanence à la tête de l’État camerounais. Nous avons décrit enfin le corpus tant dans sa composition que dans ses principales caractéristiques statistiques. Ces éléments mis en place, l’analyse et l’exploration du discours présidentiel camerounais peuvent maintenant être développés dans les chapitres suivants.