Chantez-vous français ?

Bon usage et déclamation du français

qu’est-ce qui change (vraiment) entre 1650 et 1850 ?

Sous le nom de bon usage, le xvii^e siècle nous a légué une norme portant sur la langue dans son ensemble : sur le lexique, la morphologie, la syntaxe, la graphie, mais aussi et en particulier sur les aspects phoniques dont il est question ici. Visant à neutraliser, ou à transcender la diversité dialectale et sociolectale qui est le propre des langues vivantes, le bon usage sélectionne un ensemble restreint de variantes qui seront réputées « correctes » ou « convenables » et dont l’emploi sera prescrit de la même manière que, plus globalement, on inculque la bienséance. Loin de décrire la langue réelle dans toute sa diversité, il institue donc une langue épurée et idéale à laquelle chacun devrait aspirer.

Si le concept de bon usage ne s’est, dans le fond, guère modifié entre Vaugelas (1647) et Grevisse (1936), la teneur de cette norme a forcément évolué avec le temps : aucune langue, si codifiée et standardisée soit-elle, n’échappe au changement. La première question à laquelle on s’attellera ici est la suivante : comment le bon usage, en tant que norme phonétique s’appliquant à la conversation soignée des personnes cultivées, a-t-il évolué entre 1650 et 1850 ?

Le second xvii^e siècle concentre la plupart des grands textes dits « classiques » — au sens où ils ont durablement fait référence pour l’enseignement dans les classes — ainsi qu’une première salve de tragédies en musique dues en grande partie à Lully ; le premier xix^e siècle voit se lever le vent nouveau du romantisme, sur fond de grand opéra français. Comment les règles traditionnelles liées à la déclamation théâtrale et à la diction des vers se sont-elles comportées face à ces turbulences esthétiques ? Telle est la seconde question à laquelle on s’efforcera de répondre.

Le propos de cette brève étude (Footnote: Qu’il me soit permis de remercier chaleureusement au passage Yves-Charles Morin et Pierre-Alain Clerc pour leurs précieuses remarques, dont profite la version définitive de ce texte.) étant de mettre en évidence des mutations touchant les normes, elle s’appuie essentiellement sur les ouvrages prescriptifs visant à l’orthoépie ou destinés à l’enseignement de la diction. Les témoignages de critiques, les anecdotes et souvenirs sur le théâtre, qui constituent un corpus foisonnant, utile à l’étude de la réception du jeu théâtral mais particulièrement peu fiable en matière de prononciation, ont été délibérément laissés de côté. On n’a pas non plus pris en compte les rares prescriptions portant spécifiquement sur l’adaptation de la diction au chant, qui ne peuvent être dissociées d’une histoire plus générale de la technique vocale. C’est à dessein aussi qu’on a sauté à pieds joints par dessus le xviii^e siècle : en confrontant deux groupes de sources séparées par un bon siècle, on a recherché un effet de contraste que la continuité chronologique risquait d’estomper.

Articulation

On se propose donc de comparer entre eux deux instantanés, chronologiquement distants, d’une prononciation du français réputée correcte et pouvant servir de référence aussi bien pour la déclamation théâtrale que pour la diction lyrique. À l’échelle de la langue et de son évolution, cette distance doit pourtant être considérée comme assez brève : les propres enfants de personnes nées au xvii^e siècle ayant pu vivre assez longtemps pour atteindre le xix^e, on ne s’attend pas à une transformation fondamentale, mais tout au plus à quelques soubresauts. Par exemple, le digramme ‹ oi ›, tel qu’il apparaît dans un mot comme moi, connaît, à Paris entre le Moyen Âge et la fin du xix^e siècle, au moins deux prononciations concurrentes et dont la première perd très lentement du terrain devant la seconde. En revanche, la valeur conférée à chacune de ces variantes par la norme s’est brusquement inversée au cours du xviii^e siècle : en 1700, est encore presque unanimement rejetée comme parisienne et grossière ; en 1800, elle sera seule considérée comme correcte, étant devenue vieillie voire rustique (Footnote: Voir Bettens, La déclamation du français, entre bon usage et (in)tolérance.).

Le système vocalique

S’agissant de deux états de langue révolus pour lesquels il n’existe aucun enregistrement sonore, la reconstitution, sur la base d’écrits théoriques, des systèmes vocaliques correspondants constitue un outil de comparaison incontournable. Un système vocalique prend la forme d’un schéma bidimensionnel dont l’axe vertical représente l’aperture, autrement dit la distance qui, pour chaque voyelle, sépare du palais le point culminant du dos de la langue. Horizontalement est représentée la position de ce même point sur l’axe antéro-postérieur. Toutes les voyelles s’inscrivent donc dans un polygone, symbolisant la cavité buccale vue de profil, au sein duquel elles peuvent être dites plus ou moins ouvertes ou fermées, plus ou moins antérieures ou postérieures. Il faut en plus distinguer les voyelles arrondies et les voyelles écartées, en référence à la forme que prennent les lèvres lorsqu’elles sont articulées. Aux voyelles orales représentées dans le schéma s’ajouteront encore les voyelles nasales, caractérisées par un abaissement du voile du palais.

Figure 1. Le système vocalique du français vers 1700

Vers 1700 (figure 1), le système vocalique qu’il est possible de reconstituer pour le français de référence (Footnote: Pour l’établir, on s’est basé avant tout sur les témoignages de Dangeau (vers 1694), Hindret (1696) et Vaudelin (1713-1715).) comprend déjà, antérieurement, la série de quatre voyelles [i], [e], [ɛ] et [a] qu’on décrit aujourd’hui pour la langue standard. Postérieurement, on n’y retrouve que deux voyelles : [u] et un /O/ indifférencié qui vaut aussi bien pour notre [o] (fermé) que pour notre [ɔ] (ouvert) ; [ɑ] (postérieur) en est absent. Plus centralement, on reconnaît les deux arrondies [y] et [ø] (la variante ouverte [œ] de cette dernière voyelle manque) ainsi que l’e « féminin », « obscur » ou « muet », noté [ə] (schwa), généralement décrit comme une voyelle centrale plus ou moins atténuée.

Cent cinquante ans plus tard (figure 2), le front postérieur du système (Footnote: Le schéma ci-contre est en grande partie fondé sur le Dictionnaire de Féline (1851), qui s’est lui-même appuyé sur les travaux d’une commission ad hoc.) a vu apparaître les deux o, ouvert et fermé, que nous connaissons aujourd’hui, ainsi qu’un [ɑ], qui s’oppose au [a] antérieur. On a donc, tant en avant en qu’en arrière, quatre voyelles d’aperture différente. Sur le front intermédiaire, la variante ouverte [œ] de la voyelle eu est maintenant présente, mais elle se confond avec l’e féminin dont l’articulation, lorsqu’il n’est pas muet, comprend désormais un arrondissement avec projection des lèvres (Footnote: Selon Morin de Clagny, Traité de prononciation, p. 16, « il faut ouvrir la bouche et avancer un peu les lèvres ».). Enfin, on hésite à ajouter, sur le front antérieur, un e supplémentaire, qui correspondrait à un un peu moins ouvert que celui de fête, tel qu’on pourrait l’entendre dans faite (Footnote: Après discussion, Féline préfère considérer ces deux voyelles comme deux variantes, longue et brève, du même [ɛ], mais d’autres auteurs comme Dupuis (1836), Malvin-Cazal (1846) admettent cette voyelle supplémentaire. Morin de Clagny distinguera même, en sus de l’e muet, quatre e de timbre différent.).

Figure 2. Le système vocalique du français vers 1850

À première vue, les schémas des figures 1 et 2 présentent d’importantes dissemblances. En réalité, celles-ci sont presque toutes expliquées par un unique changement : le glissement entre deux modes de perception et de représentation ; l’un, ancien, dans lequel la différenciation des voyelles en longues et brèves prime sur toute nuance de timbre ; l’autre, plus récent, dans lequel c’est la différenciation des timbres qui l’emporte. Si le schéma de 1700 paraît relativement pauvre, c’est parce qu’il ne représente en somme que la moitié de la réalité : à l’exception du schwa, chacun des timbres vocaliques qu’il comporte existe en deux variantes, l’une brève et l’autre longue qui donnent lieu à des oppositions distinctives (Footnote: Yves-Charles Morin, Histoire des systèmes phonique et graphique du français.).

Au xvii^e siècle, on considère en effet que c’est essentiellement la durée vocalique qui fonde la différenciation de paires comme patte-pâte, hotte-hôte, jeune-jeûne, faite-fête, goutte-goûte, fumes-fûmes, mimes-mîmes etc., et l’on néglige les diffractions de timbre, ce qui ne veut pas pour autant dire qu’elles n’existent pas du tout. Au xix^e siècle, pour expliciter les mêmes oppositions, on cherchera avant tout à invoquer des différences de timbre : [a]-[ɑ], [ɔ]-[o], [œ]-[ø] voire [ɛ̝]-[ɛ] et l’on ne recourra à ce qui subsiste des oppositions de durée que de manière accessoire (Footnote: La notation de Féline comprend un « accent vertical » qui distingue certaines voyelles encore considérées comme longues. Ainsi, les paires patte-pâte, hotte-hôte y sont elles opposées par le timbre, et aussi par la quantité.). Là où l’on n’identifie pas de nuance de timbre, par exemple pour l’ou de goutte et goûte, et en général pour les voyelles les plus fermées ou « hautes » ([i], [y] et [u]), on a fini par considérer les deux éléments de la paire comme de parfaits homophones.

Globalement, il s’agit d’un processus lent qui s’amorce au xvi^e siècle et n’est, aujourd’hui, pas totalement achevé. À cette échelle large, les deux instantanés présentés ci-dessus correspondent à deux stades très proches l’un de l’autre, mais situés de part et d’autre d’un point de bascule, celui où, dans la description de la norme, la quantité cède le pas au timbre.

À partir des années 1650 (Footnote: Notamment chez Chiflet (1659), puis chez Hindret et Dangeau.), les voyelles nasales sont décrites comme des voyelles à part entière et non, ainsi qu’on peut aujourd’hui encore les entendre dans le Midi, comme des entités complexes combinant une voyelle partiellement et progressivement nasalisée et une consonne nasale affaiblie. Vers 1700, la discussion ne porte donc que sur leur nombre : certains, comme Vaudelin, n’en reconnaissent que quatre : [ɑ̃], [ɛ̃], [ɔ̃], [œ̃] (Footnote: De nos jours, et tendent, en tout cas à Paris, à se fondre en une seule voyelle nasale non arrondie.), alors que d’autres, comme Dangeau et Hindret, en identifient une cinquième, un [ĩ], correspondant en particulier au in- privatif, qu’ils distinguent du [ɛ̃] présent dans bien. Il semble que, après 1800, un consensus soit en passe de se dégager en faveur du système à quatre voyelles nasales, comme le confirme Féline :

A l’égard des quatre nasales, la commission s’accorda sur ce point, qu’elles constituent des sons simples, bien que dérivant de certaines voyelles, et il demeura constant que ce sont quatre véritables voyelles qui doivent avoir chacune un signe particulier. Il fut seulement observé que la nasasle in tient bien plus de l’ê que de l’i (Footnote: Féline, Dictionnaire, p. 30.).

En somme (tableau 1), bien que deux, voire trois nouveaux timbres fassent leur apparition entre 1700 et 1850 dans la description du français de référence, ils ne compensent que partiellement l’érosion du système d’oppositions de quantité et la perte d’un timbre nasal.

	1700	1850
Nombre de timbres oraux	9	11-12
Nombre de voyelles orales (compte tenu de la quantité)	17	11-12
Nombre de voyelles nasales	4-5	4
Nombre total de voyelles	21-22	15-16

Tableau 1. Érosion du système vocalique entre 1700 et 1850

E féminin

Vers 1700, l’e féminin reconnu par le bon usage est encore vraisemblablement un e central : ni antérieur ni postérieur, ni ouvert ni fermé, ni écarté ni arrondi. Certains, comme Vaudelin (Footnote: Vaudelin, Instruction, observation liminaire et p. 17.), vont jusqu’à le considérer comme une sorte de « lubrifiant » phonique, qui, à défaut d’une « vraie » voyelle, se ferait immanquablement entendre après toute consonne. Ainsi, le mot sculpteur pourrait-il générer rien moins que quatre schwas lubrifiants, dont le dernier suivrait la consonne finale : [səkyləpətørə] ; la fin de ce mot masculin ne sonnerait donc pas différemment de celle du mot féminin heure ([ørə]).

Mais les théoriciens du vers et de sa diction ne l’entendent pas exactement de cette oreille, ainsi Phérotée de La Croix (1675) :

La difference qu’il y a des vers masculins aux feminins se trouve dans le nombre de syllabes, & dans les diverses voyelles qui finissent la syllabe. De sorte que les vers feminins ont toûjours une syllabe de plus, que les masculins. On appelle vers feminins ceux, dont la derniere voyelle du dernier mot est un [ e muet ou obscur, c’est à dire un e qui ne se prononce presque point, comme dans les mots fortune, audace, Monarque, &c. Soit qu’ils ayent un [ s aprés, comme dans les pluriers de mêmes noms fortunes, audaces, Monarques, &c. Soit qu’ils ayent apres [ ent, comme dans les pluriers des verbes de la premiere conjugaison, aiment, enseignent, &c. (Footnote: Phérotée de La Croix, L’Art de la poësie françoise, p. 3. Ce traité de 1675, qui sera augmenté en 1694, est outrageusement calqué sur celui de Lancelot, qui remonte à 1663.)

Réfutant par avance l’objection selon laquelle cette syllabe surnuméraire pourrait n’être que graphique, Richelet (1671) avait affirmé :

La Sillabe veut dire en Grec, assemblage ; & elle est un son formé d’une, ou de plusieurs lettres. Le Vers feminin a toûjours une sillabe de plus que le masculin (Footnote: Richelet, La Versification françoise, p. 17.).

Dans la diction poétique que connaissent Richelet et La Croix, les vers féminins comptent donc concrètement une syllabe de plus que les masculins de même mesure. Cette syllabe post-tonique surnuméraire peut certes ne s’entendre « presque point », elle doit néanmoins être suffisamment distincte pour que l’oreille perçoive une différence incontestable entre la finale [arkə] du mot monarque et le mot arc, prononcé [ark]. Si l’on veut bien, le schwa lubrifiant que Vaudelin entendrait après arc correspondrait, dans leur logique, à une absence de voyelle, le « presque point » venant quant à lui décrire un son qui, quoique n’atteignant pas la plénitude d’une voyelle masculine, fait distinctement syllabe.

Au xix^e siècle, on retrouve à peu près telle quelle la doctrine du schwa lubrifiant chez Malvin-Cazal :

Pour atteindre à ce but, nous poserons d’abord, comme un principe qui n’est pas contesté : que dans aucune langue, ni vivante, ni morte, il n’est possible de proférer une articulation, initiale, finale, ou dans le corps d’un mot, sans le secours du son d’une voyelle, et qu’à défaut de tout autre son, c’est celui de l’e muet qui nous sert à la faire entendre. Il n’est pas possible, en effet, de prononcer al ou il, par exemple, sans faire entendre un e muet, écrit ou non écrit, après l ; et c’est sur cet e féminin, et non sur l’a ou sur l’i, que tombe l’articulation désignée par la consonne l ; d’où il s’ensuit que ces mots total, vil, le premier quoique censé dissyllabe, et le second monosyllabe, sont réellement l’un trissyllabe et l’autre dissyllabe dans la prononciation. Ces mots se prononcent donc comme s’il y avait, to-ta-le, vi-le, avec cette seule différence qu’on appuie un peu moins sur l’e muet non écrit qui termine les premiers mots total, vil (Footnote: Malvin-Cazal, Prononciation, p. 19-20.).

Cette infime différence phonique entre les finales masculine et féminine qu’il reconnaît tout d’abord, le même auteur s’emploie ensuite à la nier :

Tout en convenant de cette différence, il n’en demeure pas moins constant, que si elle existe pour les yeux, elle est réellement nulle pour l’oreille, qui ne saurait distinguer dans la prononciation les mots latins lux (lumière), rus (campagne), des mots français luxe, russe, ni ceux que nous écrivons cap et cape, pic et pique, bal et balle, vis et vice, rob et robe, Apt et apte, sommeil et sommeille, admis et à demi, etc. Quel est en effet l’homme étranger à notre langue qui soupçonnerait qu’il y eût une orthographe différente pour tous ces mots, dont la désinence orale est absolument la même (Footnote: Malvin-Cazal, Prononciation, p. 21-22.) ?

Le point de vue de la commission Féline est un peu différent :

Pour compléter le travail relatif à la lettre e, il restait à fixer le caractère de l’e appelé muet, dont le son n’a rien de commun avec ceux de l’e fermé et de l’e grave. La commission en fit une étude qui prouva que, dans le plus grand nombre de cas, l’e dit muet, placé au milieu ou à la fin des mots, n’exprime véritablement aucun son, ainsi que le nom donné à cette lettre l’indique d’ailleurs suffisamment ; un son muet ne saurait en effet se comprendre. La conclusion fut que l’e muet proprement dit existe dans l’orthographe, mais non pas dans la langue ; que, dans tous les mots où il est nécessaire de le prononcer, il exprime un son réel comme tous les autres signes, et que ce son devrait être appelé sourd et non pas muet, cette dernière dénomination n’étant qu’un non-sens.

Après l’e on passa au son eu. On reconnut qu’il existe bien dans la langue française, et l’on remarqua qu’il présente avec l’e que je viens d’appeler sourd le même rapport qu’on avait trouvé entre les deux sons des premières voyelles, a et â, é et ê, o et ô. Ce rapport est en effet si bien marqué, que, dans une foule de mots comme jeune, pêcheur, on fait entendre le son de l’e sourd et non celui de l’eu tel qu’il est donné par les mots jeûne, pêcheuse.

Un membre pensait, comme plusieurs grammairiens, que le eu comporte deux sons ; mais la majorité n’a pas partagé cet avis : elle a considéré que le son pris pour le second eu n’est autre que celui de l’e improprement nommé muet, déjà signalé dans les mots jeune, pêcheur (Footnote: Féline, Dictionnaire, p. 30-31.).

La commission identifie donc une voyelle féminine d’articulation plus forte que l’e central historique, prenant la forme d’un [œ] et impliquant donc une projection des lèvres. Dans le corps du Dictionnaire, cet e « sourd » (et non « muet ») n’apparaît, en fin de mot, que dans les monosyllabes : on aura donc [ʒœ] pour je mais [kuraʒ] pour courage. On le rencontre aussi à l’intérieur des mots, mais de manière inconstante : par exemple [rlɑ̃] pour relent mais [rœlɛvmɑ̃] pour relèvement, [lɑ̃tmɑ̃(t)] pour lentement mais [lɛstœmɑ̃(t)] pour lestement. Après avoir rejeté la doctrine du schwa lubrifiant, Féline précise que la prononciation de ces e n’est pas la même dans le disours public — ou soutenu — que dans la conversation ordinaire :

Relativement à l’e muet, je ne me suis pas conformé à l’opinion de plusieurs auteurs qui pensent qu’il est impossible de prononcer une articulation sans la placer entre deux voyelles, et que lorsque l’une de ces deux voyelles manque dans le mot écrit, il faut dans la prononciation ajouter un e muet. Je ne partage pas cette opinion ; je crois, au contraire, qu’une seule voyelle, soit avant, soit après, suffit pour une ou plusieurs consonnes, et bien loin d’en ajouter, j’ai cru devoir même supprimer l’e muet dans tous les mots où on l’écrit sans jamais le prononcer ; je n’ai pas vu de raison pour mettre un e à marque plutôt qu’à marc, à leste qu’à lest, à rixe qu’à onyx. J’ai seulement eu égard à ce que, dans le langage soutenu, on fait sentir le plus souvent les e muets placés au milieu des mots. Je les ai donc maintenus dans les mots où ils sont susceptibles d’être prononcés : ce sera aux personnes qui emploieront mon Dictionnaire à en faire la distinction et à ne point perdre de vue que, dans la conversation ordinaire, la prononciation de cette lettre aurait un caractère d’affectation qu’on s’applique à éviter (Footnote: Féline, Dictionnaire, p. 47.).

Pour sa part, c’est lorsqu’il aborde la diction des vers que Malvin-Cazal reconnaît des nuances dans la prononciation de l’e féminin :

Main-te-nan jeu meu chèrch’ é neu meu trou-ve plu.

Vou voua-yé seu keu j’è-m’ é seu keu jeu re-dou-t’.

Jeu neu dé-si-de pouin an-tre je-nè-v’ é ro-m’.

Ki m’a-pran mon de-voua-r’ ê tro sûr deu meu plè-r’.

Jeu leu plin, jeu leu blâ-m’ é jeu sui so-n’a-pui (Footnote: Malvin-Cazal, Prononciation, p. 43.).

Il déclare élider les e remplacés par une apostrophe, parlant maintenant, à leur sujet, de « mutisme absolu ». À l’intérieur des vers, ses apostrophes signalent des cas classiques d’élision d’e féminin devant voyelle initiale. En fin de vers, elles s’appliquent en revanche, à des rimes féminines. Si ces e post-toniques sont aussi peu sonores qu’il l’indique, les finales féminines concernées doivent, selon sa logique, se confondre avec des finales masculines dans lesquelles une consonne finale prononcée serait suivie du schwa lubrifiant minimal, avec pour conséquence prévisible une confusion phonique entre certaines rimes masculines et des rimes féminines.

S’il s’était agi de phonétiser la conversation courante, Malvin-Cazal aurait probablement transcrit par une apostrophe tout ou partie des e qu’il note à l’intérieur ou à la fin des mots, mais il précise que « dans le style noble, on élide beaucoup moins ces sortes d’e, et dans la poésie on ne les élide jamais, lorsqu’ils forment une syllabe que l’on doive compter ». Il demande néanmoins qu’on ne les prononce que « le plus faiblement que l’on peut », sous peine d’être « taxé de gasconisme ». Enfin, l’e féminin des monosyllabes est transcrit par un eu qualifié d’« un peu affaibli », ce qui rejoint les prescriptions de Féline.

Après en avoir nié la réalité phonique, Malvin-Cazal réaffirmera néanmoins son attachement à la distinction traditionnelle entre rimes masculines et rimes féminines :

Nos e muets, qui nous sont reprochés par quelques auteurs étrangers, sont précisément ce qui forme la délicieuse harmonie de notre langue : couronne, diadème, empire, épouvantable, sombre, etc. Cet e muet final, qu’on fait sentir sans le proférer sensiblement, laisse dans l’oreille un retentissement mélodieux, comme celui d’un timbre qui résonne encore quand il n’est plus frappé. Ces auteurs ne sentent pas la beauté ni la nécessité de nos rimes féminines, qui ne sont que des e muets. Cet entrelacement de rimes masculines et fémimines fait le charme de nos vers (Footnote: Malvin-Cazal, Prononciation, p. 41.).

Comment, concrètement, faire « sentir » un schwa post-tonique sans le proférer « sensiblement » ? On confine à l’ineffable…

Consonnes finales, de la pause à la rime

Largement conforme au bon usage, le discours public exige néanmoins, en raison même de la présence d’un auditoire, une articulation plus marquée que la conversation ordinaire, ce qui peut à l’occasion entraîner des écarts à cette norme. Au xvii^e siècle, certains locuteurs avaient ainsi pris l’habitude, lorsqu’ils lisaient ou parlaient en public, de faire entendre, à la pause ou devant consonne initiale, tout ou partie des -r finaux d’infinitifs en -er et en -ir, consonnes dont le bon usage n’aurait pas toléré la prononciation dans ce contexte (Footnote: Dans le cas des infinitifs en -er, l’articulation de la consonne finale entraînait l’ouverture de l’e qui précédait. Vaugelas condamne tout cela dans ses Remarques, p. 437-8. Selon Hindret, L’Art de prononcer parfaitement, p. 728-738, Molière aurait obtenu de ses comédiens qu’ils se corrigent. C’est à cet unique haut fait que pourrait se résumer son œuvre de « réformateur » de la diction. Voir aussi Sabine Chaouche, L’Art du comédien, p. 296-299.). Pour être attestés, les artifices de de ce type n’en demeurent pas moins marginaux : outre les -r déjà mentionnés, ils peuvent impliquer un petit nombre de consonnes finales, comme l’-l du mot il, et peut-être aussi l’-r du mot leur, que le bon usage ne faisait pas entendre systématiquement, mais c’est à peu près tout. Il n’existe en revanche aucun témoignage faisant état d’une prononciation plus ou moins systématique à la rime de tout ou partie des consonnes finales écrites que le bon usage n’aurait pas fait entendre (Footnote: Cette doctrine sans fondement est pourtant professée, entre autres, par Bellanger, Études historiques, p. 188 sq., Lote, Histoire du vers, t. VI, p. 289 sq., t. IX, p. 229 sq., Green, Le « lieu » de la déclamation,.).

On ne saurait du reste apprécier le fonctionnement du système classique de rimes sans faire appel à un état de langue bien plus ancien. Dans cet éden rimique, qu’on fait remonter au xii^e siècle, la graphie reflète encore assez fidèlement la phonie : à la pause, toutes les consonnes écrites se prononcent, mais sous forme dévoisée (Footnote: Dans ce contexte, l’opposition entre consonnes voisées et consonnes dévoisées n’est pas pertinente. De ce fait, la dentale vaut seule pour les graphies -d et -t, la vélaire pour -c et -g, etc., ce qui fonde les équivalences qu’on retrouve dans la rime classique.) ; les syllabes post-toniques y sont encore presque aussi nettement articulées que dans les langues romanes avoisinantes.

À partir de ce stade primitif va s’amorcer une lente dérive entre la graphie qui, pour ce qui a trait aux consonnes finales et aux syllabes post-toniques, s’est figée, et la phonie qui évolue : dans un premier temps, les consonnes finales, en tant qu’implosives, vont s’amuïr devant consonne initiale puis, souvent, à la pause ; dans un second temps, les syllabes féminines vont se réduire à presque rien. La langue n’étant pas monolithique et évoluant de manière asynchrone voire incohérente, c’est dans la tradition écrite, source de stabilité, que la poésie littéraire va ancrer les conventions qui, durablement, continueront à régir la rime. Voilà l’unique raison pour laquelle les poètes n’ont jamais cessé d’agencer leurs rimes « comme si » la totalité des consonnes finales dévoisées et des syllabes post-toniques avaient continué à se faire entendre aussi clairement qu’au xii^e siècle (Footnote: À ce propos, voir Bettens, Les consonnes finales.).

Dans le bon usage du xvii^e siècle, on ne prononce en fait plus qu’une infime minorité des consonnes finales conservées par la graphie : de ce point de vue, on est déjà très proche de l’usage qui a prévalu de nos jours. Ainsi par exemple, les -s/x/z (Footnote: Depuis le xiii^e siècle, ces trois consonnes finales sont considérées comme équivalentes pour la rime. Auparavant, -z, prononcé et non comme les deux autres, rimait à part.) tant désinentiels que lexicaux, les -r des infinitifs en -er et en -ir et un bon nombre de -d/t (Footnote: Dans certains cas, -t se fait entendre à la pause lorsqu’il suit immédiatement une voyelle brève, mais cet usage est considéré comme « indifférent », autrement dit facultatif, et n’a jamais été spécifiquement requis par le bon usage, le discours soutenu ou la diction poétique.) sont-ils désormais muets aussi bien devant consonne initiale qu’à la pause : ils ne subsistent qu’en liaison. Une transcription phonétisante remontant à 1650 permet de mesurer les effets de cette évolution sur la diction poétique :

Toe Ki loje dans mę poumôn :

Toi qui loges dans mes poumons :

Ki me défan d’aler o môn,

Qui me défends d’aller aux monts,

E ki ran courte mon halęne :

Et qui rends courte mon haleine :

Enemi de tous mę plezîr,

Ennemi de tous mes plaisirs,

Injurieus à męs dézîr,

Injurieux à mes désirs,

Tu ne me permę Ke la plęne.

Tu ne me permets que la plaine.

Ancore fôt i Ke mę pâ

Encore faut-il que mes pas

Soê mezuré par le compâ

Soient mesurés par le compas

De la pezanteur Espagnole ;

De la pesanteur espagnole ;

E ke je marche graveman,

Et que je marche gravement,

Bien élongné du mouveman

Bien éloigné du mouvement

Des Posti’lôn du grand Eole.

Des postillons du grand Éole.

I fôt ancore ke le tân

Il faut encore que le temps

Soę tamperé, ke les Autân,

Soit tempéré, que les autans,

Les Akilons, é lę Borée,

Les aquilons, et les borées,

E toute sę poste de l’ęr

Et toutes ces postes de l’air

Ki von vite comme l’éclęr

Qui vont vite comme l’éclair

An leur loje soê retirée.

En leur loge soient retirées.

Si le bel eu’l de l’univêr

Si le bel œil de l’univers

Ne me regarde de travêr,

Ne me regarde de travers,

E k’il soęt an son apojée

Et qu’il soit en son apogée

Dardan ses eu’lades à plon ;

Dardant ses œillades à plomb ;

Tot aprę mon servô se fon,

Tôt après mon cerveau se fond,

E la Toû fę de l’anrajée.

Et la toux fait de l’enragée.

L’importunité de la Toû

L’importunité de la toux

Ki ne s’aproche point de voû

Qui ne s’approche point de vous

Par une faveur singuliére,

Par une faveur singulière,

Doę parętre dedan mę vêr

Doit paraître dedans mes vers

Parmy sét ouvrage divêr,

Parmi cet ouvrage divers,

Puis k’ęle m’ę si familiére.

Puisqu’elle m’est si familière.

Le chéf sét humide vesseo

Le chef cet humide vaisseau

Ne voulan servi de berseo

Ne voulant servir de berceau

A ses humeûr dont il abonde,

À ces humeurs dont il abonde,

Par un défo de charité,

Par un défaut de charité,

Comme s’il étęt irrité,

Comme s’il était irrité,

Sur lę plus foębles i débonde.

Sur les plus faibles il débonde.

Ô toû que toû n’eymerê pâ,

Ô toux que tous n’aimeraient pas,

Dautan ke tu n’â point d’apâ

D’autant que tu n’as point d’appâts

Pour te fęre cherir é suivre ;

Pour te faire chérir et suivre ;

Tu diminuë mon flambo ;

Tu diminues mon flambeau ;

E m’avoęzinan du tombo

Et m’avoisinant du tombeau

Tu me rans annuyé de vivre.

Tu me rends ennuyé de vivre.

[Tr]ouble repâ, trouble-repô.

Trouble-repas, trouble-repos

Tu me surprans à tou propô ;

Tu me surprends à tout propos ;

Dans ces vers qu’un Minime dauphinois (Footnote: Dobert, Récréations littérales, p. 548-549.) consacre à ses problèmes respiratoires, les -s/x/z, que la graphie usuelle a maintenus, ne sont pas phonétisés mais, en revanche, la syllabe qu’ils viennent clore est notée longue au moyen d’un circonflexe. Les -d/t de gravement, mouvement, fond sont tout aussi muets, de même que le -b de plomb (Footnote: La catégorie -omb/omp ne comptant à peu près que le mot plomb, les dictionnaires de rimes admettent depuis le xvi^e siècle qu’il puisse, contre la tradition graphique, rimer avec des mots en -on/ont/ond. avec lesquels, de fait, il est en consonance.) et, devant consonne, l’-r de servir et l’l de il. Ce témoignage n’est ni isolé ni atypique : il rejoint ceux des grammairiens et remarqueurs du xvii^e siècle et, en particulier, celui de Hindret (Footnote: Hindret, L’Art de prononcer parfaitement, p. 774 sq.) qui, dans ses exemples de vers dramatiques phonétisés, réserve exactement le même traitement aux consonnes finales.

Il y subsiste néanmoins des consonnes prononcées en fin de vers : dans un mot comme univers, -s s’efface comme aujourd’hui devant l’r qui précède et qui reste articulé. Le fait qu’il se retrouve de facto en consonance (Footnote: À la durée vocalique près, paramètre que les poètes négligent le plus souvent, et en faisant abstraction d’une éventuelle différence d’articulation des r (voir infra).) avec éclair, dont l’r final n’est pas amuï, n’autorise pas pour autant ces deux mots à faire rime : la tradition, que vient rappeller leurs graphies divergentes (présence et absence d’un -s final), y fait obstacle. Le mot éclair, phonétisé éclęr reste en revanche nettement distinct de éclaire, qui serait phonétisé éclęre. Il doit exister, pour ces deux finales, deux degrés d’énergie articulatoire qui permettent de faire sentir la différence entre un simple schwa lubrifiant considéré comme nul et un e féminin faiblement audible, distinction à laquelle le bon usage a déjà pratiquement renoncé.

On peut donc affirmer que, bien avant 1700, le système de rimes, de pleinement concret qu’il avait pu être à ses origines, est devenu abstrait : afin que les rimes féminines restent phoniquement distinctes des masculines, il requiert, pour les syllabes post-toniques, un effort de diction qui outrepasse la norme de référence ; pour déterminer l’exactitude des rimes, il fait intervenir des règles d’équivalence mettant en jeu des consonnes finales qui, pour la plupart, ne s’entendent plus.

Mais on n’a pas pour autant renoncé à sauver les apparences. Il existe en effet de rares cas pour lesquels la prononciation la plus usuelle donnerait lieu à une dissonance, ainsi Titus : vertus (Footnote: Racine, Bérénice, V, 5.). Au xvii^e siècle, le bon usage prescrit en effet qu’on fasse entendre l’-s des prénoms latins dans tous les contextes ; il réclamerait donc [ys] : [y]. Toujours à cette époque, il existe encore un principe selon lequel « la Rime peut fixer la prononciation de certains mots, ou justifier la liberté de les prononcer de plus d’une manière (Footnote: Mourgues, Traité, éd. 1724, p. 74.) ». En d’autres termes, un impératif absolu de consonance peut imposer des entorses au bon usage et, dans le cas présent, forcer par exemple à faire entendre l’-s des deux termes. Dans vertus, une prononciation déjà archaïque, mais encore présente dans la mémoire collective, serait réactivée localement, alors que, partout ailleurs, le bon usage prévaudrait.

Au xix^e siècle, la dérive est telle que le système de rimes, dont le fonctionnement intrinsèque reste immuable, est devenu carrément fictif. Comme le montre, ci-dessus, l’exemple de diction poétique donné par Malvin-Cazal, plaire, phonétisé plè-r’, sonne dorénavant exactement comme clair. De plus, dans les deux vers : « Je suis certain, Messieurs, que vous ignorez tous / Quand, comment et pour quoi vous êtes de vrais fous ? », Morin de Clagny, préconise qu’on prononce, à la rime, « tou-sse » et « fou », tournant ainsi le dos à un principe ancestral d’identité phonique (Footnote: Voir l’extrait cité infra. Contrairement à Titus : vertus, cette rime n’aurait pas posé de problème en 1700. En effet, l’usage actuel, qui requiert la prononciation, dans tous les contextes, de l’s final de substantifs comme fils, sens et, dans certains emplois, de celui de tous, plus n’est pas attesté avant la seconde moitié du xviii^e siècle. Au moment où Racine rime esprits : fils (Mithridate, V, 4.), il entend encore probablement [i] et non [is]. De même, la rime tous : époux (Corneille, Théodore, III, 3.) pourrait n’être encore, pour l’oreille de Corneille, qu’une rime en ordinaire.).

En somme, le xix^e siècle voit disparaître les scrupules phonétiques qui contraignaient encore la diction des rimes cent ans plus tôt. On y professe désormais sans état d’âme l’application des règles de bon usage, et tant pis si quelques rimes, pourtant conformes à la tradition, se mettent à sonner faux.

Consonnes finales en liaison

En français, un certain nombre de consonnes finales historiques, requises par l’orthographe mais omises par la prononciation, peuvent être réactivées lorsque le mot suivant commence par une voyelle, avec laquelle elles se trouvent resyllabées ; on parle alors de liaison. Comme cela avait été le cas en général pour les consonnes finales, les consonnes de liaison ne connaissent pas l’opposition voisé/dévoisé, mais ce contexte particulier ne favorise pas systématiquement le dévoisement : -s/x/z se lient par [z], -f/v (Footnote: Encore assez générale au xvii^e siècle, et, au xix^e siècle, chez Dubroca, la liaison de -f par n’a finalement persisté que pouf le numéral neuf.) par [v] (variante voisée), et -c/g/q par [k], -d/t par [t](variante dévoisée).

De tout temps, les arbitres du bon usage ont cherché a préciser quelles liaisons sont obligatoires, lesquelles sont facultatives et lesquelles sont inconvenantes, ce qui donne lieu à des règles parfois byzantines et en général fluctuantes. Dès le xvii^e siècle (Footnote: En particulier chez Chiflet et Hindret.), on tente d’expliquer que la liaison est nécessaire entre deux mots lorsque le premier « régit » le second : ainsi par exemple, l’adjectif se lierait au nom qu’il détermine, mais pas l’inverse. En 1824, Dubroca consacre un traité entier à la « prononciation des consonnes et des voyelles finales des mots français, dans leur rapport avec les consonnes et les voyelles des mots suivants (Footnote: Les linguistes parleraient aujourd’hui de sandhis externes, reprenant un terme issu de la grammaire du sanskrit.) », dont, logiquement, le plus important chapitre est consacré aux enchaînements entre les consonnes finales et les voyelles initiales subséquentes. Avant d’étudier en détail une multitude de cas particuliers, il y reprend la règle selon laquelle les liaisons « ne doivent se faire en général qu’entre des mots qui se régissent et se modifient mutuellement (Footnote: Dubroca, Traité, p. 77-78.) ».

Tant au xvii^e qu’au xix^e siècle, on admet en revanche que le discours soutenu requiert plus de liaisons que la conversation ordinaire et, dès lors qu’il est question de dire des vers, toutes les règles fondées sur le lien syntaxique tombent : une tradition particulièrement stable veut en effet que, au sein d’un vers, toutes les élisions, tous les enchaînements (Footnote: En principe, on parle d’enchaînement lorsqu’une consonne finale, prononcée dans l’usage de référence, se trouve resyllabée avec la voyelle initiale du mot qui suit ; on ne parlera proprement de liaison que lorsque la consonne finale concernée est amuïe dans l’usage de référence.) et toutes les liaisons possibles se réalisent, et ce indépendamment de la syntaxe. Contrairement à celui qui faisait prononcer, à la pause ou devant consonne, les -r des infinitifs, cet artifice n’est nullement anecdotique : extrêmement diffus, il est même pour beaucoup dans le caractère particulier de la diction poétique.

Quant au principe, Dubroca demeure dans l’étroite ligne de ses devanciers :

Je sais que, dans la lecture soutenue, et dans la poésie surtout, où des inversions fréquentes dérangent l’ordre naturel des mots, où il s’agit de donner plus de force et d’harmonie à la prononciation, et de remplir par une articulation sensible les pieds qui entrent dans la construction des vers, on peut et l’on doit même souvent former des liaisons qui n’ont pas pour bases les règles qui les déterminent ; comme dans ces vers, par exemple : « Je crus, à son abord, voir la sœur d’Apollon, / Qui chassait, à l’écart, dans le sacré vallon ». Où l’on doit dire : je cru-z’à son abord, et chassai-t’à l’écart, quoiqu’il n’y ait point de rapport grammatical entre ces mots : mais ces liaisons sont l’ouvrage du goût, et c’est lui qui doit toujours présider à leur formation. C’est en sa faveur seulement que les principes se taisent, et la prononciation, au lieu d’y perdre quelque avantage, n’en devient que plus coulante et plus harmonieuse (Footnote: Dubroca, Traité, p. 78-79).

Et, à titre d’exemple, il propose une translittération du début de L’Art poétique de Boileau dont voici les premiers vers :

Cê-t’en vain qu’au Parnass’éun témérai-r’auteur

Pense de lâr dê vèr-z’atteindre la hauteur ;

S’il ne sen poin du ciel l’influence secrète,

Si so-n’as-tr’en naissan, ne l’a formé poète,

Dans son gén-î-étroi-t’i-lê toujour captif,

Pour lui Phébu-z’ê soûr | é péga-z’ê rétif.

Ô vou don, qui brûlan d’u-n’ardeur périlleuse,

Couré du bè-l’èsprit la carriè-r’épineuse,

N’allé pa sur dê vèr, san frui vou consumé,

Ni prendre pour génî-u-n’ardeur de rimé.

Craigné d’eun vain plaisir lê trompeuse-z’amorce,

É consulté lon-ten vo-tr’èspri-t’é vo force.

La nature, ferti-l’a n’èspri différen,

Sé-t’entre lê-z’auteur partagé lê talen.

L’eun peu tracè-r’en vèr-z’un-n’amoureuse flamme :

L’autre, d’eun trai plaisan | éguisé l’épigramme.

Malhèrbe, d’eun | héro peu vanté lê-z’èxploi ;

Racan chanté Philis, lê bèrgé-z’é lê boi.

Maî souven-t’u-n’èspri qui se flatt’ é qui s’aime,

Méconnai son génî-é s’ignore soi-même.

Ainsi, tè-l’autre foi qu’on vi-t’avec Farè,

Charbonné de sê vèr lê mûr d’un cabarè,

S’en va ma-l’à propo, d’une voi-z’insolente,

Chanté du peupl’ Ébreu la fuite triomphante,

É poursuivan Moï-z’au travèr dê désèr,

Cour-t’avèc Pharaon se noyé dans lê mèr (Footnote: Dubroca, Traité, p. 172 sq.).

En survolant les cent douze vers de cet extrait, on constate tout d’abord qu’il se conforme presque toujours à la règle de la liaison (ou de l’enchaînement) systématique. Quelques exceptions sont toutefois à signaler :

À la césure (Footnote: On rappelle que, en métrique classique française, la césure est l’articulation de deux hémistiches (ou sous-vers) et n’existe donc que dans les vers composés, soit à la quatrième syllabe des décasyllabes et à la sixième des alexandrins. Les vers simples, à savoir tous les autres, sont dépourvus de césure.) :

Pour lui Phébu-z’ê soûr | é péga-z’ê rétif.

L’autre, d’eun trai plaisan | éguisé l’épigramme.

Le chemin | ê glissan | é péni-bl’à tenir.

Tou ce qu’on di de tro, | ê fa-d’é rebutan ;

J’évite d’être lôn | é je devièn-z’obscur.

L’au-tr’ a peur de rampé ; | il se pèr dans la nûe.

Eun style tro-p’égal, | é toujour-z’uniforme,

Quoique vous-z’écrivié, | évité la bassesse ;

Cette contagion | infecta lê province,

Le plu mauvai plaisan | eu sê z’approbateûr,
Hors césure :

Quèlque sujè qu’on traite, | ou plaisan | ou sublime,

Lorsqu’à la bien chèrché, d’abô-r’on sévèrtûe,

La plupâr | emportè d’une fou-gu’insensée,

Le chemin | ê glissan | é péni-bl’à tenir.

Passé du gra-v’ au doû, du plaisan | au sévère ;

N’offré rien | au lecteur que ce qui peu lui plaire ;

Alors qu’il s’accorde en effet quelques libertés à la césure, libertés qui, si l’on en croit Hindret (Footnote: Hindret, L’Art de prononcer parfaitement, p. 776-777.), auraient déjà été tolérables au xvii^e siècle, il est beaucoup plus strict à l’intérieur des hémistiches, où les seuls écarts à la régle touchent :

un r (d’abord, plupart) ou une voyelle nasale (plaisant) précèdant une consonne finale (en particulier -d/t) ;
une voyelle nasale (chemin) en fin de mot.

Dans le premier de ces deux cas, Dubroca renonce ponctuellement à réactiver une consonne qui, normalement, ferait liaison, probablement dans le but d’aérer la diction. Quoique contraires aux règles, de tels allégements étaient probablement déjà susceptibles de survenir au xvii^e siècle, en particulier dans les genres les moins solennels : Hindret (Footnote: Hindret, L’Art de prononcer parfaitement, p. 765-766.), toujours lui, préfère cam ennemi à campennemi dans une comédie.

Le comportement des voyelles nasales en liaison pose quant à lui, déjà au xvii^e siècle, d’épineux problèmes aux quelques grammairiens qui s’y intéressent. L’enchaînement d’une voyelle nasale finale avec une voyelle initiale peut en effet se résoudre de trois manières concurrentes :

pas de liaison, et donc hiatus entre les deux voyelles, comme aujourd’hui dans un maçon étranger, [masɔ̃.etrɑ̃ʒe] ;
liaison avec dénasalisation, comme aujourd’hui dans un bon ami, [bɔnami] ;
liaison sans dénasalisation, comme aujourd’hui dans mon ami, [mɔ̃nami].

Dans la conversation courante, c’est probablement la première solution qui, sauf lien syntaxique très étroit, était, au xvii^e siècle déjà, la plus usitée ; dès lors qu’il s’agissait de dire les vers, elle se heurtait cependant au tabou de l’hiatus. Le grammairien Dangeau discute par exemple le cas du vers de Quinault, « Ah j’atandrai long-temps la nuit est loin ancore (Footnote: Quinault, Roland, IV, 2. La graphie est celle de Dangeau, Premier discours qui traite des voyèles.) ». Il observe qu’un chanteur, dans le souci d’éviter le « bâillement » (hiatus), tendra à adopter une prononciation « normande » (liaison sans dénasalisation), en prononçant « loin-nancore », ou « loing ancore » avec un « petit g » (probablement [lwɛ̃ŋɑ̃kɔɾə]), ou encore, évitera l’hiatus en faisant une « petite pause », celle-là même qui est suggérée par le « chemin | ê » de Dubroca, autrement dit en interrompant brièvement le flux sonore.

Quant à Dubroca, il défend avec vigueur la liaison avec dénasalisation, mais il concède qu’il s’agit d’une doctrine personnelle, contraire à celle de la majorité des grammairiens qui, depuis le xvii^e siècle, privilégient la liaison sans dénasalisation. Pour sa part, Féline reconnaîtra qu’il n’est pas possible de s’accorder sur une règle générale en la matière, et il insérera dans son dictionnaire des notes qui précisent le comportement particulier de certains mots.

Dans un contexte plus large que celui de la liaison, les règles d’enchaînement appliquées par Dubroca semblent aussi favoriser l’amuïssement de certaines consonnes finales : vou don, qui brûlan, Aimé don la raison, le bon sen s’accor-d’, mais le sens cour-t’ aprè-zèlle qui pourrait indiquer que, dans ce second cas, l’s final de sens se prononce. Féline remarque quant à lui, à propos de donc, que « souvent, au milieu des phrases, on ne fait pas sentir le k » et, à propos de sens, que « les mots composés, bon sens, sens commun, à contre-sens, se prononcent sans faire entendre le s final (Footnote: On présume que c’est l’usage du xvii^e siècle qui s’est conservé dans ces expressions figées.) ».

De plus, il existe probablement une nuance entre soûr | é (césure) pour sourd et, où la barre verticale indique qu’il n’y a pas d’enchaînement entre les deux mots, et d’abôr’on (hors césure) pour d’abord on, où l’apostrophe suggère la resyllabation d’un r qui n’est pas final avec une voyelle initiale, en négligeant la consonne de liaison suggérée par la graphie.

Rarement, une barre verticale à la césure semble indiquer que Dubroca renonce à l’élision d’un e féminin, entorse déjà attestée au xvii^e siècle dans les récitatifs d’opéras : Quèlque sujè qu’on traite, | ou plaisan | ou sublime, Pour peu qu’on s’a n’écarte, | aussitô-t’on se noie, Suspende l’hémistiche | en marque le repo.

Dans d’autres cas, il se permet une liaison à l’entrevers, pratique qui ne semble pas attestée avant lui : Aimé don la raison. Que toujour vo-z’écriz’/Empreunte d’elle seul’é leur lus-tr’é leur pri. Son li-vr’aimé du ciel, é chéri dê lectêur-z’/É souven ché Barbin, entouré d’achetêur.

En définitive, il n’existe, dans ce domaine complexe, pas de changement fondamental entre la tradition issue du xvii^e siècle et ce que professe Dubroca, mais il est probable que celui-ci se montre un peu plus tolérant que certains de ses devanciers.

R apical ou r « grasseyé » ?

Avec les consonnes palatales ou « mouillées », r est la seule consonne du français dont l’articulation fondamentale prête à discussion. L’r roman prototypique est un r apical, produit par le battement de la pointe de la langue contre les alvéoles des incisives supérieures. En français, il existe sous deux formes, l’une dite « faible » ou « battue » ([ɾ]), qui consiste en un seul coup de langue, et l’autre « forte » ou « roulée » ([r]) qui consiste en une série de battements successifs. À une époque ancienne, probablement au Moyen Âge déjà, les r forts, ont pu tendre, dans le parler du peuple de Paris, à se déplacer vers l’arrière pour être articulés entre le dos de la langue et l’arrière du palais mou ou la luette, articulation qu’on peut qualifier de « grasseyement (Footnote: Parallèlement les r faibles tendaient à s’assibiler en [z], ce dont il reste quelques traces minimes dans la langue d’aujourd’hui, par exemple le mot chaise pour chaire.) ».

On ne sait pas exactement, tant les rares témoignages remontant au xvii^e siècle sont d’interprétation délicate, à quel moment le grasseyement est devenu prépondérant dans la conversation des Parisiens cultivés. Il est cependant vraisemblable que, récupéré et valorisé par certains milieux — au nombre desquels, peut-être, celui des précieuses — ce trait de prononciation, souvent attribué aux femmes, s’y soit peu à peu insinué. Il n’en a pas moins continué fort longtemps à être considéré comme un vice de prononciation, si l’on en juge par ce témoignage très tardif (1890) :

Le grasseyement de l’r, défaut très commun aux Parisiens et qui consiste à supprimer plus ou moins cette lettre dans la prononciation, devient insupportable dans le chant. Dans la conversation, lorsqu’il est peu sensible, on lui trouve généralement quelque chose de doux et d’agréable, qui paraît surtout plus gracieux dans la bouche d’une femme. — La véritable prononciation de l’r est parfaitement indiquée par Molière dans le Bourgeois Gentilhomme. On prononce cette lettre, dit le maître de philosophie, « en portant le bout de la langue jusqu’au haut du palais, de sorte qu’étant frôlée par l’air qui sort avec force, elle lui cède et revient toujours au même endroit, faisant une manière de tremblement (Footnote: Lesaint, Traité complet, p. 236.).»

Admis avec réticence dans la conversation, r grasseyé restait sévèrement exclu du discours public (ou soutenu) :

L’extrémité de la langue, trop molle, trop paresseuse, n’a pas la force de se lever et d’aller joindre le palais pour intercepter l’air au passage et produire le frôlement, la vibration nécessaire à l’articulation du r ; la racine seule de la langue recule, rétrécit la gorge ; l’air, en sortant de la poitrine, ne rencontre que la luette comme obstacle, l’agite, et lui fait produire ce son rauque, gras, désagréable, désigné d’une manière tout expressive par le nom de grasseyement. Ce défaut, le plus répandu de tous, est tellement passé dans nos habitudes vocales, l’oreille est tellement habituée à cette prononciation gutturale, qu’elle a peine, chez beaucoup de personnes, à saisir la différence qui existe, d’une manière frappante, entre le grasseyement et la vibration. On demande ce que c’est que de grasseyer. La vibration paraît dure, ridicule, à bien du monde, même à des gens pour qui la pureté de la parole devrait être une obligation : à des avocats, des orateurs, acteurs, chanteurs, etc. Habitués à cette espèce de croassement, ils le trouvent plus facile, plus simple, plus naturel, et vous répondent que, tout le monde parlant ainsi, il serait inutile de vouloir faire autrement. Que voulez-vous riposter à de tels arguments ? Il faut se taire et laisser grasseyer. Mais à toutes les personnes qui ont le désir d’embellir leur pensée du charme de la parole, à celles qui veulent obtenir de véritables succès oratoires, à tous les professeurs, à tous les artistes, à tous les chanteurs, à tous les comédiens, nous leur dirons : que la noble langue des Bossuet, des Mirabeau, des Racine, des Corneille, des Molière, n’admettra jamais une telle prononciation. Et nous leur affirmerons qu’il est impossible de parvenir à prendre rang parmi les grands maîtres de l’art oratoire, si l’on n’a pas d’abord acquis cette mâle vigueur de l’accentuation, cette harmonie complète de la parole, qui plaît tant à l’auditeur, et le dispose, dès les premiers mots, à vous rendre, par son admiration, tout le plaisir que vous lui procurez (Footnote: Morin de Clagny, Traité de prononciation, p. 52.).

Le vigoureux engagement de Morin de Clagny (1852) en faveur d’r apical laisse en tout cas supposer que la norme qui prescrivait cette prononciation dans toute forme de discours soutenu pouvait déjà, dans les faits, se trouver menacée.

Prosodie

Selon Talma, qui récuse pourtant l’emploi de ce terme pour désigner l’action théâtrale, la déclamation, considérée comme une « énonciation de convention », serait « l’art de parler comme on ne parle pas (Footnote: Talma, Mémoire sur Lekain, p.&nbps;51.) ». N’en déplaise au grand tragédien, les traités de diction indiquent en effet, de manière étayée et constante, dans quelles conditions et limites le comédien aura à s’écarter de la façon « normale » de parler. Ces écarts à l’usage commun peuvent, comme on vient de le voir, concerner l’articulation proprement dite, qu’ils rendent à la la fois plus lisse et plus forte en la conformant, s’il y a lieu, au cadre donné par la structure des vers. Mais ils laissent aussi entrevoir un travail de stylisation des inflexions « naturelles », visant à obtenir un degré d’emphase qui soit en adéquation avec le contexte particulier du discours public ou de l’énonciation théâtrale.

Instabilité théorique

Plus encore que celle de la phonétique articulatoire, l’étude historique de la prosodie du français bute sur la volatilité du cadre théorique. Si floues et partielles soient-elles parfois, les descriptions de l’articulation des voyelles et des consonnes données par les grammaires du passé peuvent au moins, pour être confrontées les unes aux autres, être reformulées au moyen des outils de la phonétique moderne, qui fournissent un métalangage universellement compréhensible. Un tel cadre fait défaut pour la prosodie où, pour ne citer qu’un exemple, une notion aussi élémentaire que celle d’accent donne lieu encore aujourd’hui à une multitude de définitions et de théories contradictoires. Entre la mesure concrète de proéminences sonores qui, en tant que telles, se révèlent non reproductibles et peu pertinentes, et l’individualisation d’entités plus abstraites qui ne sont pas directement mesurables et demeurent par surcroît largement inconscientes, cette science n’a, et de loin, pas encore trouvé sa voie. C’est donc, faute de mieux, la théorie prosodique de la langue latine, telle qu’elle s’était solidement constituée dans l’Antiquité, et telle qu’on n’a jamais cessé de l’enseigner depuis le Moyen Âge, qui demeure la seule référence stable.

La prosodie du latin classique s’organise autour des deux notions fondamentales que sont la quantité et l’accent, et ce sont de fait elles qui, à des degrés variables, ont imprégné jusqu’à nos jours la réflexion sur la prosodie du français. La théorie latine de la quantité repose sur l’opposition de voyelles (ou de syllabes) brèves et longues, alors que celle de l’accent décrit des inflexions à caractère mélodique touchant en général une syllabe par mot, dont la localisation dépend de la quantité de sa syllabe pénultième.

Les descriptions de la prosodie du français par les grammairiens du xvii^e siècle sont presque exclusivement centrées sur la quantité : comme on l’a déjà vu, elles s’appuient sur un système vocalique dédoublé dans lequel, schwa excepté, chaque voyelle existe sous une forme brève et une forme longue. Au début du xix^e siècle, l’état de la théorie donne à penser que les oppositions de quantité, encore pleinement distinctives (Footnote: Hindret, par exemple, pouvait citer d’une traite une quarantaine de paires minimales fondées sur la quantité, autrement dit, des paires de mots (saut/sot, le faiste/vous faites, nous fûmes/il fume, etc.) entre lesquels une différence de quantité permet à elle seule d’établir une distinction de sens ; L’Art de prononcer parfaitement, p. 581-584. De plus, la quantité vocalique jouait encore, à la même époque, un rôle important en morphologie puisqu’elle distinguait, par exemple, le pluriel de la plupart des substantifs et certaines désinences verbales, comme par exemple les formes plurielles en -oient.) un siècle plus tôt, sont désormais en voie d’effritement (Footnote: Voir à ce propos, Philippe Caron, La perte des quantités vocaliques dans le français de référence.). Quant aux descriptions phonologiques récentes de la langue standard, elles ne leur reconnaissent en général plus aucun statut et c’est désormais l’intonation qui, à côté de l’accent, focalise l’attention des linguistes.

La notion d’accent semble connaître une fortune inverse. Tout indique que, en tant que phénomène prosodique, l’accent dit « tonique » ou « lexical » a toujours existé en français ; c’est en tant que notion théorique qu’il a été très longtemps ignoré par des grammairiens francophones qui, ne percevant guère le phénomène ou ne parvenant pas à le rattacher à la théorie antique, se concentraient sur les questions de quantité. Pourtant, dès le xvi^e siècle, l’Anglais Palsgrave (Footnote: Palsgrave, L’Éclaircissement (1530), édité par F. Genin, Paris, Imprimerie nationale, 1852, p. xx.) l’avait adéquatement localisé. Dans la seconde moitié du xvii^e siècle, c’est Vairasse, longtemps exilé en Angleterre où il avait peut-être eu connaissance du travail de Palsgrave, qui est l’un des seuls, voire le seul grammairien à théoriser le siège de l’accent :

Quand les François parlent, ils poussent ordinairement la voix avec force, & l’élevent sur la derniere syllabe de leurs dictions, […] Mais si les mots sont terminez par un (e) feminin, qui de sa nature est três-bref & três-debile, alors ils mettent l’accent sur la penultiéme, & laissent doucement aller la voix sur la derniere syllabe (Footnote: Denis Vairaisse d’Allais, Grammaire méthodique, p. 41.).

Chez Hindret, qui, à l’instar des Anciens, conçoit les accents comme des inflexions, seules quelques lignes montrent la fonction qu’auraient pu recevoir les accents typographiques si l’usage n’en avait pas fait des diacritiques :

On pourroit faire comprendre ces inflexions de voix en notre Langue par ces mots Párque, Líste, bórne, que je marque exprès d’un accent, pour vous faire connoitre que la voix s’éleve dans la prononciation de leurs premieres syllabes, & qu’elle se rabaisse dans celle de leurs dernieres syllabes ; aussi-bien qu’en ces mots Verglàs, Parquèt, Vertù : Et en ces autres mots, âage, Apôstre, Captûre, où la voix s’éleve & se rabaisse en même tems sur leurs penultièmes syllabes en les prononçant (Footnote: Hindret, L’Art de prononcer parfaitement, p. 364.).

Si les accents toniques paraissent adéquatement localisés, on soupçonne que le choix de l’accent aigu (élévation de la voix) pour les pénultièmes brèves, de l’accent grave (abaissement de la voix) pour les syllabes finales et du circonflexe (élévation et abaissement consécutifs de la voix) pour les pénultièmes longues reproduit plus les conventions typographiques qui prévalaient alors pour le latin que des inflexions propres au français. Plus loin, Hindret donnera un chapitre de plus de cent pages consacré à la « prononciation des syllabes longues et brèves », ce qui est représentatif de l’importance relative qu’accordent, à cette époque, les grammairiens à la quantité et à l’accent.

Au xix^e siècle, la théorie de l’accent tonique mettra du temps à triompher. Ainsi Féline pourra-t-il encore écrire, en 1851 :

L’accent, qui nous fait appuyer sur certaines syllabes plus que sur d’autres, contribue aussi à animer la parole et à varier le langage. Il est très-prononcé dans quelques langues. Dans la nôtre, au contraire, il est à peu près insensible. Je crois même avec beaucoup de personnes et surtout d’étrangers, qui sont les meilleurs juges en cette matière, que le caractère particulier du français bien parlé est de n’avoir point d’accent, toutes les syllabes devant être prononcées d’une manière également distincte, et la voix ne devant s’élever que suivant le sens de la phrase (Footnote: Féline, Dictionnaire, p. 28.).

Pourtant, dès 1811, l’Italien Scoppa avait, à propos de la versification, attiré l’attention des francophones sur l’accent tonique de leur langue, et en avait exalté les propriétés dynamiques et rythmiques :

Toutes les langues ont un accent : la française seulement en serait-elle privée ? L’accent dont nous parlons, y est aussi marqué et aussi énergique qu’en italien. Je ne voudrais pas m’éloigner de ce que l’on sent communément en prononçant les mots français. Mais j’aurais des raisons pour prouver que l’accent français est et doit être par la nature et le génie même de la langue, plus fort et plus énergique, que l’italien. Que l’on fasse attention aux raisons que je vais exposer, et qu’on les réfute si l’on peut. Le corps principal de la langue française est formé de mots dont l’accent pèse sur la dernière syllabe ; L’accent de tout le reste des mots français affecte l’avant-dernière syllabe qui est toujours suivie d’une syllabe muette et féminine. Dans le premier cas, ne voit-on point que tous les accens, sont des accens de rinforzo, accent distingué par sa force et sa vivacité ? […] Dans le second cas, c’est-à-dire dans le reste des mots français féminins, où l’accent se fait sentir sur l’avant-dernière syllabe, il doit être plus marqué qu’en italien dans les mots de la même nature : parce que la dernière syllabe étant muette, et d’un son vague et léger, elle n’exige que peu de son ; ensorte que la voix n’étant pas obligée de faire trop sentir cette dernière syllabe, elle se concentre sur l’avant-dernière, qui par là en reçoit plus d’éclat (Footnote: Scoppa, Les vrais principes, p. 90-93.).

Entre ces deux positions extrêmes, Dubroca, en 1824, affiche certes son adhésion à la nouvelle doctrine :

La doctrine de l’accent tonique, considéré, non comme une chose de convention, mais comme un principe immuable, universel, et fondé sur un ordre constant, a été démontrée et proclamée par les plus célèbres grammairiens : on a fait l’application de ses lois à la langue française, et sa prosodie, sous cet important rapport, a été déterminée (Footnote: Dubroca, Nouveau traité de prosodie française, p 193.).

Mais l’application qu’il donne lui-même de ces lois accentuelles à la prosodie du français apparaît inopérante, car elle reste servilement calquée sur les règles propres au latin : ainsi accentue-t-il, par exemple, tránsport, máison, ádroite, cóncevoir. De plus, en regard d’une quinzaine de pages dévolues à l’accent, Dubroca en consacre plus de trois cents à la quantité, qui restent si étroitement calquées sur celles de Hindret (1696) qu’on s’interroge sur leur adéquation à sa propre langue.

Dès l’entrée en matière, la position de Dupuis (1836) apparaît nettement plus en phase avec son temps :

Jusqu’à présent, sous le nom de longues et de brèves, on s’est beaucoup occupé de la quantité plus ou moins considérable des syllabes, sans que ce travail ait procuré un avantage réel aux étrangers ni aux personnes de la province. En effet, ce que les grammairiens appellent la quantité n’est bien souvent qu’un point imperceptible dans la prononciation, et d’ailleurs, quelle que soit l’augmentation d’une syllabe, elle ne détermine pas plus la nuance des sons, que la largeur ou la pesanteur ne détermine la teinte des objets, ou que la durée en musique ne détermine l’intervalle d’une note à une autre. La connaissance des sons que la langue écrite n’apprend pas toujours, n’a donc pas été suffisamment approfondie par le systême des longues et des brèves ; du moins c’est notre avis (Footnote: Dupuis, Traité de prononciation, p. xiii-xiv.).

Si elles n’y sont pas complètement niées, les différences de quantité se voient pourtant refuser ici tout statut phonologique : la fonction distinctive qu’elles avaient assumée par le passé est clairement reportée sur des nuances de timbre. Ce virage méthodologique facilite la reconnaissance du rôle de l’accent tonique :

L’accent tonique n’est pas non plus entièrement étranger à la langue française. En effet, si l’on écoute parler, avec attention, on sentira qu’il se fait un léger repos tantôt sur la dernière syllabe, si elle est sonore ou masculine : la beauté, l’esprit, la vertu, je devançai, tu devanças, il devança ; tantôt sur la pénultième ou avant-dernière syllabe, si la dernière est sourde ou féminine : la joie, la statue, la tête, le chêne, l’incendie, le marbre, nous devançâmes, vous devançâtes : dans tous ces derniers exemples les syllabes finales étant sourdes ou muettes, puisqu’elles se composent d’e sans accent, servent seulement d’appui à la consonne ou à la voyelle précédente. Cette dernière peut alors être considérée comme longue, et doublement longue, si elle se trouve marquée de l’accent circonflexe effectif, c’est-à-dire réellement tonique, comme dans théâtre ; cet accent, augmentant l’intensité de la voyelle, en prolonge par conséquent la durée, moins toutefois au commencement ou au milieu qu’à la fin des mots, car c’est toujours vers le repos pénultième ou final que la voix se précipite comme à son repos naturel, les autres n’étant qu’accidentels. Plusieurs auteurs s’accordent sur ce point, principalement ceux qui se sont occupés d’enseigner la langue française aux étrangers (Footnote: Dupuis, Traité de prononciation, p. xxxiv-xxxv.).

On comprend bien comment la durée syllabique, une fois reléguée au rang de simple paramètre physique sans statut phonologique, peut être réallouée au renforcement concret des syllabes toniques, ce qui aurait été contradictoire dans le paradigme antique où une quantité phonologique primait sur l’accent.

Faire entendre le mètre ?

Il serait curieux que des générations de poètes et dramaturges se soient échinés à composer des vers dans le seul but que ceux qui les disaient s’appliquent à les camoufler en prose. On ne s’étonne donc pas que, au xvii^e siècle, il fût encore impératif de faire entendre distinctement toutes les syllabes des vers. Voici par exemple comment La Croix attire l’attention sur la nécessité de n’élider qu’à bon escient :

Cette douce Elision sert à faire de beaux vers, en y faisant entrer beaucoup de mots, qui contiennent beaucoup de sens ; cet [ e muet pourtant ne se mange, que lors qu’il est seul, sans estre suivi d’aucune consonne ; ainsi ce seroit une grande faute de prononcer cette moitié de vers.

Les Princes ayment les sages

De la sorte Les Princ’ aime les sage.

On dit bien au singulier Le Prince aime le sage.

On ne remarque pas tant cette mauvaise prononciation dans la prose, que dans les vers, où elle est insupportable, à cause qu’elle les fait trop courts d’vne syllabe, comme l’on voit dans ce vers.

Trop fideles amants, méprisés ces cruelles.

Ce vers na que cinq syllabes au premier hemistique, en prononçant, comme font beaucoup de gens.

Trop fidell’ amants, &c. (Footnote: La Croix, L’Art de la poësie françoise, p. 5-6. On relève que La Croix, probablement par raccourci, qualifie de manière erronée « Les Princes ayment les sages » de « moitié de vers » malgré ses sept ou huit syllabes métriques, alors que Lancelot, son modèle, ne voulait pas qu’on prononce « Les Princes ont Dieu pour Juge, comme si c’étoit la moitié d’un Vers ».)

Si ces prescriptions ont un caractère pratique et s’adressent clairement à ceux qui disent les vers, il n’en va pas de même pour celles qui touchent à la césure :

La Cesure est un certain repos, qui separe le Vers en deux parties, dont cha[c]une s’appelle hemistique, ou demy Vers. […]

Il n’est pas necessaire que le sens finisse à la Cesure ; il suffit qu’on s’y puisse reposer ; ce que l’on ne pourroit faire, si elle finissoit par ces particules, [ qui, je, ne, &c.

Bon. 1. Ie connois de son cœur — les perfides desseins.

Mauvais. 2. C’est une beauté qui — charme tous les mortels (Footnote: La Croix, L’Art de la poësie françoise, p. 10-11.).

Contrairement à ce qu’on croit souvent, ce « certain repos », expression consacrée qui se retrouve de source en source, est une contrainte de structure qui concerne le poète et en aucun cas une contrainte de diction. En effet, si le vers est bien construit, il suffira ensuite de le dire avec un certain naturel pour qu’il apparaisse adéquatement rythmé, ce que confirme Mourgues, pour qui « la Cesure est fausse toutes les fois qu’en s’y arrêtant, on sera obligé de s’éloigner de la manière naturelle de parler ou de lire (Footnote: Mourgues, Traité, 1685, p. 112.) ».

À cette époque, il n’existait donc pas — et il n’avait probablement jamais existé — une déclamation « syllabique (Footnote: Dans la logique de Lote, Histoire du vers français, t. IV, p. 219 sq., qui croit qu’une telle déclamation a seule prévalu dans les styles élevés jusque vers la fin du xvii^e siècle, le fait même que le vers français soit structurellement syllabique lui interdirait d’être déclamé autrement que comme une suite de syllabes sans relief, ce qui est absurde.) » qui eût exigé qu’on mît ostensiblement en relief la césure et la rime, à l’exclusion de toute autre syllabe. Il était certainement possible, voire souhaitable, de profiter de ces frontières métriques pour respirer ou marquer toute sorte de pause mais, si le poète n’était pas incompétent, il suffisait presque toujours de rythmer les vers comme on aurait rythmé de la prose pour obtenir un résultat passable.

Cette liberté rythmique s’accompagnait d’une liberté au moins aussi importante en matière d’intonation. En effet, contrairement à une autre idée reçue, l’alexandrin n’a jamais connu une diction calquée sur la psalmodie, qui aurait par exemple imposé une mélodie ascendante pour le premier hémistiche et descendante pour le second. Cette soi-disant déclamation « circonflexe », qui n’est décrite ni même mentionnée par aucune source historique, semble en effet tout droit sortie de l’imagination de Lote (Footnote: Lote, Histoire du vers français, t. I, p. 83 sq., t. II, p. 1 sq., t. IV, p. 219 sq. En fait, le travail de Lote, par ailleurs monumental, est traversé par des contresens qui résultent d’une appréhension déficiente des rapports entre la musique savante et le texte poétique d’une part, entre la structure du vers et sa diction d’autre part.).

Il eût été superflu d’en faire état ici si ce concept aberrant n’avait pas été repris et perpétué par des travaux plus récents (Footnote: Voir par exemple Frédéric Deloffre, Le Vers français, p. 34 sq., Julia Gros de Gasquet, En disant l’alexandrin, p. 41 sq..). Sur la base d’une interprétation simpliste d’une remarque de Lamy (1675), Chaouche parvient même à décrire une déclamation « sinusoïdale » dans laquelle ce serait chaque hémistiche qui, séparément, se verrait soumis à une intonation en circonflexe (Footnote: Chaouche, L’Art du comédien, p. 308 sq. Pour Lamy, L’Art de parler, p. 157, « Les mesures de nos Vers se distinguent ainsi d’une maniere fort naturelle, puisque naturellement & sans art on éleve la voix en commençant l’expression d’un sens parfait, & on la rabaisse sur la fin de cette expression ». Cette diction selon le sens est à l’exact opposé d’une diction « affectée » qui n’aurait égard qu’au mètre. À cela s’ajoute que le point de vue adopté dans ce passage n’est pas pratique, mais structurel et comparatiste. Lamy cherche avant tout à expliquer comment il se fait que, dans le vers latin, les unités métriques (pieds et mesures) et les unités linguistiques (mots et sens) se trouvent régulièrement « tuilées » (| Arma vi- | -rumque ca- | -no), alors qu’elles coïncident systématiquement dans le vers français. Prises dans ce contexte, les notions d’élévation et d’abaissement font référence à celles, antiques, d’arsis et de thésis qui relèvent de la théorie générale du rythme et ne sauraient être réduites à des faits d’intonation.). Le problème est que, si l’on pose, de manière forcément conjecturale, que la déclamation théâtrale a dû, dans un passé plus ou moins lointain, être contrainte par un schéma rythmique « syllabique » et un schéma intonatif stéréotypé, qu’il soit « circonflexe » ou « sinusoïdal », on doit logiquement pouvoir expliquer aussi quand, pourquoi et comment ce modèle a fait place à un autre ; on en vient alors à postuler que la technique de diction a connu, vers la fin du xvii^e siècle ou à un autre moment, une réforme (Footnote: Voir à ce propos, Gros de Gasquet, En disant l’alexandrin, p. 47, Lote, Histoire du vers, t. VI, p. 351 sq., Chaouche, L’Art du comédien, p. 253 sq.) qui l’a modifée en profondeur. Mais, comme une telle réforme est aussi peu attestée que les schémas archaïques dont elle aurait dû entraîner la révocation, le problème, quoique déplacé, demeure entier.

On a vu au contraire, à propos de l’e féminin et des consonnes finales en liaison, à quel point les préceptes traditionnels de la déclamation ont pu, en dépit d’un léger effritement, résister à l’usure du temps et persister jusqu’au début du xix^e siècle. On a vu aussi que des auteurs comme Malvin-Cazal et Dubroca, dans leurs transcriptions phonétisantes, sont aussi soucieux que, avant eux, La Croix et Richelet, de distinguer toutes les syllabes métriques. Que penser alors de cet exemple de déclamation fourni par Morin de Clagny (1852), lui-même professeur au Conservatoire ?

Jĕ lui disē, mē-siēu, ô ré-pé-ti-ci-on,

Tu tĕ tron-pe, mon chēr, dans lēs-in-tan-ci-on ;

Cĕ n’ē pŏ-in çă, du tou, du tou, du tou; pă-rŏl :

Tă fi-zi-ŏ-nŏ-mie ē bête, mē, non fŏl ;

É l’on n’t’an tan pā. Ur-lĕ cŏ-m’ un dé-mon ;

Nĕ tĕ lâ-ce jă-mē dĕ dŏné du pou-mon.

J’é fē dĕ lă fŏ-lie u-n’ é-tud’ prŏ-fon-d’ ;

É, j’an sé, lă d’ sŭ, pluss’ quĕ per-sŏ-n’ ō mon-d’.

Jĕ su-i cēr-tin, mē-sieū, quĕ vou-zi-gnŏ-ré tou-sse,

Kan, cŏ-man é pour kŏ-ă vou-zête dĕ vrē fou ?

Cē t’un sĕ-crē d’an hō, in-cŏ-nu sur lă tèrr…

E bi-in, jĕ l’é vŏ-lé cĕ sĕ-crē…, cĕ miss-tèr’ !

Jé forcé lă nă-tŭ-re à mĕ tré-té-ran Di-eū ;

Jĕ sé d’oū vi-in le măl, é co-man-t-il ă lieū.

Pour vous convin-cre, il fô quĕ jĕ vous l’révèl ?…

Sŏ-ăte. Vous crŏ-ă-ié Kun fou peū vivre san cèr-vèl ?

Er-rĕur, èr-reŭr ; lĕ măl n’ē pŏ-in dans l’cèr-vō.

Il ê dans lē pou-mon… n’ēst-ce pās ? c’ê nou-vō.

É ce-pan-dan, c’ê vrē. Lă preūv’ an n’ê fă-cil,

É vous l’ con-pran-dré.. ; cĕ n’ê pās difficil :

Nou-z’ăvons deū pou-mon pour pran-dré rèss-pi-ré ?

É bi-in ! kan l’un dē deū manque pour ăss-pi-ré,

Qu’il sĕ trou-v- anr-tar, pris dans lĕ vèss-ti-bul

Suss-glo-ti-de, cēt èrr bri-zé dé-man-ti-bul

L’ŏr-gá-ni-zā-ci-on ress-pi-ra-tŏ-ă-re ; ă-lŏr,

Lĕ flu-i-d’ é-tran-gé, mè-tan lĕ tou-bl-ō cŏr,

Jētt’ nŏtre măchi-n’-an n-une grand’ gên’ ;

L’ăzŏt’ par-an bās, an hô tou l’ŏc-cigēn’.

Cŏme vous l’ săvé, l’ŏc-cigēn’ ēst l’san,

É l’ăzŏt’ un pŏ-ă-zon quĕ mălgré sŏ-ă l’on pran,

Mē qu’il fō rĕj’-té ; căr, an gar-dan l’ă-zot’

Lĕ bi-in sĕ chan- jan măl, lă rē-zon dĕ vi-in sŏtt’ ;

Lĕ pou-mon tră-vă-ill-eŭr ă văl lĕ pŏ-ă-zon,

É l’ōtre lĕ con-ser-v-an vé-ri-tă-bl-ŏ-ă-zon !

Ri-in ne vă plu z-ă-lŏrs. É, donk ! on pēr lă têt’,

Kan t-on n-ă, prē du keŭr, un pou-mon ō-ci bêt’ (Footnote: Morin de Clagny, Traité de prononciation, p. 22-25.).

Le soin avec lequel l’auteur s’attache à différencier les timbres est manifeste. Rien que pour la voyelle e, on trouve, à côté de l’ĕ féminin et par ordre d’aperture croissante, un é fermé, un è ouvert « commun », un ē ouvert « grave » et un ê « très »-ouvert. Les liaisons sont elles aussi assez scrupuleusement réalisées. Au vu des nombreux traits d’union, on s’attendrait à ce que le découpage syllabique soit précisément indiqué, mais on fait face à un doute : tout comme les syllabes entre elles, les deux éléments vocaliques constitutifs de ce qui est qualifié de « diphtongues » sont délimités par un trait d’union. On a ainsi, par exemple, bi-in pour bien (une syllabe métrique) et ci-on dans les mots en -tion (deux syllabes métriques). Comme Morin ne s’explique pas sur ce point, on ne peut savoir s’il s’agit d’une simple inconsistance de notation ou si, réellement, il a renoncé, dans son enseignement de la déclamation, à distinguer la diérèse de la synérèse, ce qui serait surprenant eu égard à des témoignages postérieurs qui se montrent conservateurs sur ce point, comme de celui de Becq de Fouquières (1881) :

La diction est, en effet, modifiée par la différence de prononciation qu’affectent, en poésie ou en prose, dans un langage châtié ou négligé, les mots où entrent les syllabes ia, iai, ian, ié, ien, ier, iet, ieux, io, ion, iot, iu, oè, oua, ouai, ouen, oué, oui, uel, ueu, ui, yo. Ces syllabes, dont la poésie et un langage châtié font entendre très souvent les deux sons composants, sont prononcées, en prose ou dans un langage négligé, d’une seule émission de voix et comme une diphtongue (Footnote: Becq de Fouquières, Traité de diction, p. 27.).

La manière dont Morin traite les e féminins ne suscite pas les mêmes doutes. À quatorze reprises dans ce bref exemple, il apostrophe un e féminin qui, métriquement parlant, fait syllabe (Et l’on n’tentend pas, etc.). Sur ce point, il s’était expliqué précécemment :

L’e muet exige que la bouche soit plus ouverte qu’elle ne doit l’être pour l’articulation de l’é fermé ; car, malgré sa dénomination, l’e muet ne l’est pas du tout quand on le prononce ; il n’est muet ou nul que lorsqu’on le supprime, comme dans le corps des mots et à la terminaison de toutes les finales féminines.

Exemple :

Si votre Almaviva n’est pas en cette ville,

Que ferez-vous, ma chère, au balcon de Séville ?

que l’on doit prononcer ainsi :

Si votr’ Almaviva n’est pas en cett’ vill’,

Que f’rez-vous, ma chèr’, au balcon de Sévill’ (Footnote: Morin de Clagny, Traité de prononciation, p. 15-16.) ?

En plus d’apocoper les deux e féminins à la rime, Morin ose donc amputer la déclamation de chacun de ces vers d’une syllabe métrique (f’rez et cett’ vill’). On peut bien sûr imaginer que de telles entorses étaient susceptibles, longtemps avant 1850, de se produire dans le feu de l’action, mais jamais auparavant elles n’avaient été professées. Après la rime, c’est donc le syllabisme qui, avec Morin, devient ouvertement fictif, ce qui laisse le champ libre aux grands comédiens du second xix^e siècle et préfigure le mythique « Oui princ’, je languis, je brûl’ pour Thésée » de Sarah Bernhardt, enregistré en 1903 (Footnote: On peut l’entendre sur <http://www.phonobase.org>.).

Styliser la prosodie « naturelle »

Énoncé métriquement contraint, un vers n’en est pas moins une expression linguistique qui, à ce titre, véhicule sa prosodie propre. Dire un vers, c’est — il ne peut en être autrement — affronter cette prosodie d’essence prosaïque pour la concilier, d’une manière ou d’une autre, avec les exigences particulières du mètre poétique, processus de stylisation qui porte notamment sur le rythme et l’intonation. Voici comment, en 1881, Becq de Fouquières décrit une telle stylisation :

D’après ce qui précède, on voit qu’un mot est un tout composé de syllabes qu’un lien rigide et inextensible maintient à leurs hauteurs relatives. Mais nous n’avons là que le corps du mot, si je puis m’exprimer ainsi, et il est une syllabe, la syllabe accentuée, celle qu’on appelle la syllabe tonique, qui est en quelque sorte la tête. Cette syllabe n’est pas réunie aux précédentes par un lien rigide, mais au contraire par une sorte d’articulation. C’est par excellence la syllabe sensible et expressive, et l’articulation qui l’unit au mot qu’elle termine lui permet de se mouvoir dans le plan vertical des hauteurs. Par exemple, dans les deux mots immobilité, intempérance, les syllabes atones immobili et intempé ont des hauteurs relatives fixes, tandis que les syllabes toniques té et rance auront des hauteurs variables qui seront déterminées par l’expression, et nous pourrons à volonté les élever au-dessus ou les abaisser au-dessous du plan vocal auquel nous aurons rapporté ces mots […] Quand nous prononçons, par exemple, le mot immobilité, il nous est loisible après avoir prononcé, dans une tonalité quelconque, le dessin mélodique fixe formé par les syllabes immobili, de dire la dernière syllabe té, soit en montant, soit en descendant (Footnote: Becq de Fouquières, Traité de diction, p. 131-132.).

Le modèle, somme toute assez simple, repose entièrement sur les syllabes toniques. Non seulement, elles constituent les points d’appui rythmiques de la diction, mais le déclamateur doit de plus conduire son intonation en plaçant les sauts mélodiques immédiatement avant ces syllabes pivots. Ainsi parviendra-t-il à construire une « période mélodique », elle-même superposable à la « phrase logique », et dont les inflexions variées auront sur l’auditeur le même effet que la ponctuation sur le lecteur silencieux (Footnote: Becq de Fouquières Traité de diction, p. 141 sq.).

La description est tardive et il est évident que l’outillage théorique à disposition deux siècles plus tôt n’aurait en aucun cas permis de la formuler dans les mêmes termes. Cependant, c’est très exactement ce modèle qui se trouve, en pratique, mis en œuvre dès 1673 par Lully dans le récitatif d’opéra (Footnote: Voir Bettens, Récitatif et diction théâtrale.) : ce que ne peuvent nous dire les théoriciens du xvii^e siècle, la musique de Lully nous le montre déjà de manière parfaitement éloquente. Comment comprendre alors le statut du récitatif de Lully ? Musicalement parlant, il s’agit certes, en 1673, d’un style nouveau. Mais, s’il constitue une réelle rupture, ce n’est pas parce que le modèle de déclamation sous-jacent aurait été soudain « réformé », c’est parce qu’il s’agit de la première tentative aboutie de styliser en musique un modèle de déclamation parlée qui était déjà ancestral.

Plus on remonte le temps et plus les documents se font rares et imprécis, plus aussi il faut aller débusquer l’information au détour de sources dont le propos premier est très éloigné des questions que se poseront les chercheurs d’un lointain futur. A-t-on pour autant le droit d’en déduire que l’objet même de la recherche, dans notre cas la diction des vers, manquait intrinsèquement de consistance, ou était, comme l’écrit Lote, « un art pauvre, même très pauvre (Footnote: Lote, Histoire du vers, t. IV, p. 219.) » ?

Au contraire, il n’existe aucun témoignage attestant la pratique, à quelque date que ce soit, d’une déclamation « syllabique » et « circonflexe » — celle que Lote aimerait tant pouvoir imposer comme modèle archaïque et rudimentaire de diction des vers — mais, en cherchant bien, on en trouve en revanche quelques-uns qui, comme ceux de Fabri et Molinet au début de la Renaissance ou, au xiv^e siècle, celui d’Évrart de Conty, attestent que, en ces temps lointains déjà, on pouvait « couper » les vers en s’appuyant sur le rythme accentuel et les inflexions variées de la langue (Footnote: Voir Bettens,Rythmer le vers, chanter la prose vers 1500.).

Permanence d’un modèle unique

Une réforme est une démarche structurée visant à opérer un changement profond ; elle se conçoit, se formule, se décrète, puis est mise en œuvre voire imposée ; elle a ses promoteurs et ses détracteurs, son avant et son après. Force est de constater qu’on ne rencontre aucun de ces ingrédients au xvii^e siècle dans le champ de la déclamation : deux ou trois répliques de L’Impromptu de Versailles, ou quelques brassées de points d’interrogation sont à vrai dire un peu minces pour faire de Molière et de Racine deux chefs de faction (Footnote: Voir Chaouche, L’Art du comédien, liv. III.). Il est donc raisonnable de poser que, jusqu’à preuve du contraire, la déclamation parlée du français n’a jamais connu d’autre modèle prosodique que celui dont, chacun à sa manière, nous parlent Lully et Becq de Fouquières.

Loin de contraindre à une monotonie qui, en fait, n’a jamais été revendiquée par personne, le modèle en question illustre cette « alliance de l’égalité avec la variété » que formulait Lamy (Footnote: Lamy, L’Art de parler, p. 118, 144. Dans la logique de cet auteur, l’égalité des mesures des vers, en permettant à l’oreille de les comparer entre elles, aurait précisément pour fonction de faire percevoir toute leur diversité.), et qui fut depuis l’Antiquité l’une des conditions fondamentales de la prononciation ornée (Footnote: Quintilien, Institution oratoire, liv. XI, chap. I.). Il n’impose pas une déclamation stéréotypée, mais est à même d’embrasser de multiples styles, registres, ou modes passagères. Tout en fournissant un cadre à l’activité déclamatoire, il laisse toute latitude à l’orateur, ou au comédien, pour animer son discours.

Un lieu commun, vivace depuis le xviii^e siècle au moins, voudrait que s’opposent deux modèles inconciliables : celui d’une déclamation « emphatique », « chantante » ou « empesée » avec celui d’une diction « naturelle », « prosaïque », ou « allégée ». Il s’agit d’une vision simplificatrice. La reconnaissance d’un modèle unique, mais paramétrable, permet au contraire d’envisager l’emphase non comme une caractéristique binaire, qui serait présente ou absente, mais comme une modalité protéiforme, rarement extrême mais jamais absente, qui prendrait la forme d’une stylisation plus ou moins marquée de la prosodie « naturelle » ou « prosaïque ». On l’alimenterait alors en agissant sur divers paramètres : ralentissement ou accélération du débit, arrêt plus ou moins marqué sur les accents toniques, avec ou sans repos supplémentaire à la césure et à la rime, élargissement ou rétrécissement de l’ambitus des sauts mélodiques, jeu sur les oppositions de volume, de registre vocal, etc. Tout ce qui s’écarterait, en plus ou en moins, d’un certain « juste milieu » pourrait ainsi concourir à la perception d’un effet d’emphase.

Conclusion

Imaginons qu’il soit possible de convoquer deux comédiens du passé : A***, actif durant le second xvii^e siècle et B***, durant le premier xix^e siècle. Pas des monstres sacrés, mais de bons professionnels, rompus à leur art et possédant une technique irréprochable. On leur demanderait de déclamer, chacun à sa manière, la même tirade, pas trop véhémente, puis on soumettrait les extraits à une écoute à l’aveugle. Il n’est pas certain qu’une oreille d’aujourd’hui serait capable, sans hésitation, de rendre chacun à son époque. Certes, un auditeur bien informé débusquerait rapidement A*** sur la base de ses ‹ oi › prononcés [wɛ], mais pour le reste ?

Timbres vocaliques : la prononciation de B*** frapperait par des a postérieurs plus nombreux et plus marqués qu’ils ne le sont aujourd’hui, ce qui lui donnerait peut-être un côté « vieille France » que, paradoxalement, on ne trouverait pas chez A***. En revanche, on serait surpris, chez A***, par le timbre de certains o qui pourraient, de manière difficilement prévisible, différer de l’usage standard ( [o] pour [ɔ] ou vice versa).
Durées vocaliques : plus que B***, A*** pourrait être attentif à mettre en relief certaines voyelles longues, mais cela échapperait à des oreilles d’aujourd’hui, non exercées à repérer les oppositions de quantité, qui pourraient interpréter ces allongements comme des effets d’emphase.
E féminins : chez A*** on entendrait uniformément des e centraux non arrondis, voyelles atténuées mais prononcées avec constance, à l’intérieur des mots, dans les monosyllabes et à la fin des vers féminins. B***, quant à lui, appuierait plus que A*** sur un petit nombre d’e féminins, notamment ceux des monosyllabes, en leur donnant un son proche de [œ], mais il n’aurait guère de scrupule à apocoper les e des rimes féminines et, peut-être même, à syncoper quelques e à l’intérieur des mots, quitte à ne pas faire entendre distinctement toutes les syllabes métriques.
Articulations consonantiques : on sait que, depuis longtemps, l’articulation apico-alvéolaire des r, ainsi que les l et des n palataux (ou mouillés) a posé des problèmes d’articulation aux Parisiens. Si telle était l’origine de A*** et B***, l’articulation réputée correcte de ces consonnes devait faire partie de l’enseignement qu’ils avaient reçu.
Consonnes finales : A*** et B*** feraient à peu près autant de liaisons l’un que l’autre. Chez A***, on entendrait peut-être quelques -r finaux d’infinitifs, faiblement articulés à la pause ou devant consonne, mais cela ne serait pas très frappant. Sauf exception, le rendu des rimes serait le même chez les deux comédiens, sans mise en évidence artificielle de consonnes. Pour les quelques rimes problématiques, A*** privilégierait la consonance, quitte à trahir ponctuellement le bon usage ; B*** accorderait sa préférence au bon usage, en tolérant des dissonances ponctuelles.
Modèle prosodique : de manière non prévisible pour nous, les prosodies de A*** et de B*** différeraient quelque peu mais, fondamentalement, tous deux construiraient leur déclamation au moyen d’un rythme fondé sur les accents toniques ; tous deux aussi conduiraient leur intonation en plaçant les principaux sauts mélodiques avant ces appuis rythmiques, de manière à agencer de véritables « périodes mélodiques » destinées à guider l’esprit de l’auditeur.

En définitive, les déclamations de A*** et de B*** apparaîtraient certainement assez différentes l’une de l’autre, mais peut-être moins marquées par leur époque respective que par les styles individuels de chacun des deux comédiens. En effet, au terme de cette revue qui embrasse près de deux siècles, il faut constater que l’ensemble des règles qui encadrent la diction publique, et en particulier celle des vers, résiste étonnamment bien à l’usure du temps.

Il n’existe pas d’échelle de Richter de l’emphase. Comment, dans ces conditions, savoir lequel des deux extraits nous apparaîtrait le plus « chargé » ? Pour pouvoir répondre, il faudrait au moins avoir établi si, et dans quelle mesure, le niveau moyen d’emphase a pu se modifier au cours du temps. Hélas, les témoignages sont, sur ce point, incohérents et ininterprétables : les grands comédiens donnent lieu à des légendes ; les légendes deviennent des mythes. Les avis sur la question ne manquent pas (Footnote: Pour un florilège de tels témoignages, remontant aux xviii^e ou au xix^e siècle, on pourra consulter les deux ouvrages déjà cités de Gros de Gasquet et Chaouche.), mais ils se résument le plus souvent à mettre en regard une expérience vécue avec une légende ou un mythe. Autant comparer la voix d’un chanteur au souffle du vent…

Les premiers enregistrements, au nombre desquels ceux de Mounet-Sully et de Sarah Bernhardt, resteront pour la postérité le repère sonore le plus ancien. À leur écoute — mais encore faut-il les écouter avec moult précautions (Footnote: Voir Marie-Madeleine Mervant-Roux, Peut-on entendre Sarah Bernhardt ? ou Pierre-Alain Clerc, Ces grandes voix venues d’outre-tombe.) — des oreilles du début du xxi^e siècle retireront, à n’en pas douter, l’impression d’une emphase extrême. Comment savoir si, à côté d’un Montfleury, d’un Talma, cette déclamation phonographique aurait paru outrée, ou au contraire timide ? Cette ultime question restera sans réponse.

Une première version de cet article est disponible sur <http://bruzanemediabase.com>

Footnotes:

Bon.	1.	Ie connois de son cœur — les perfides desseins.
Mauvais.	2.	C’est une beauté qui — charme tous les mortels (Footnote: La Croix, L’Art de la poësie françoise, p. 10-11.).