Chantez-vous français ?

La déclamation du français, entre bon usage et (in)tolérance

Les projets visant à faire revivre des prononciations anciennes dans des spectacles nouveaux peuvent susciter un enthousiasme sans réserve aussi bien que le rejet le plus viscéral. La vigueur de réactions qui, souvent, échappent à toute analyse rationnelle (Footnote: On évoque, d’un côté, tel billet rageur du Figaro Littéraire ; de l’autre, l’adhésion inconditionnelle de tel spécialste du théâtre à l’esthétique de spectacles qui se revendiquent baroques. Mes vifs remerciements à Pierre-Alain Clerc pour ses remarques sur une première version du présent article.), ne laisse pas d’étonner : dans des domaines connexes, la tolérance du public et de la critique est pourtant presque sans limites. On imagine mal aujourd’hui, par exemple, que le fait de jouer (ou non) une pièce classique dans des costumes d’époque plus ou moins précisément reconstitués puisse susciter les passions. Comment expliquer, s’agissant des aspects sonores du théâtre, une telle susceptibilité ? Le choix délibéré d’une prononciation pourrait-il être ressenti comme une atteinte au texte, et donc à l’essentiel, voire au sacré ?

Par chance, une étude récente, due à une spécialiste du xvi^e siècle, permet de mieux comprendre les ressorts de ce qu’on interprétera ici comme une réaction d’intolérance. S’interrogeant sur la pertinence d’éclairer la langue « à la chandelle », Marie-Luce Demonet (Footnote: Marie-Luce Demonet, La langue à la chandelle. L’auteur concentre sa réflexion sur le xvi^e siècle, mais son argumentation peut, à quelques détails près, s’appliquer de la même manière au xvii^e siècle. La portée du présent article n’est pas strictement délimitée, mais elle embrasse en gros les xvi^e et xvii^e siècles.) explicite le malaise qui est le sien face à des tentatives plus ou moins récentes de reconstituer un « oral de luxe » (112) (Footnote: Lorsqu’une expression entre guillemets est suivie d’un nombre entre parenthèses, celui-ci renvoie à la page où Demonet en a fait usage.) dont elle met en question l’authenticité. L’avantage d’une critique bien argumentée est qu’elle peut à son tour être critiquée, ses points faibles et ses points forts relevés. La réflexion sur l’approche historique de la déclamation du français devrait s’en trouver enrichie.

Un syllogisme et une dichotomie

Au risque de simplifier, on pourrait réduire l’argument principal de Demonet au syllogisme suivant, dont les prémisses méritent toutes deux réexamen : les « restaurations » (112) phonétiques récentes se réclament des grammairiens anciens ; or, la langue dont nous parlent ces grammairiens est une norme imaginaire dont ils sont les seuls détenteurs ; donc les restaurations en question ne sont pas fondées.

À travers ce raisonnement, on voit s’établir une dichotomie entre, d’une part, une « langue parlée spontanée », « commune » ou encore « ordinaire », qui serait le fait de « certains groupes (régionaux ou sociaux) » et qui se répandrait « malgré » — voire contre — les grammairiens, et, d’autre part, un « oral d’élite » créé de toutes pièces par ces mêmes grammairiens dont le projet ne serait autre que de « contrarier » (112) la langue commune.

À la conversation spontanée des groupes sociaux, reposant sur une prononciation simple et naturelle, s’opposeraient donc les effets oratoires d’une élite forcément suspecte (les grammairiens) tentant d’imposer une prononciation surchargée et précieuse. Il faudrait donc comprendre que la seule prononciation authentique est la première des deux et qu’une « restauration » fondée sur la norme factice des grammairiens ne peut aboutir aujourd’hui qu’à une prononciation en toc, qui ravale la langue elle-même (et, partant, le texte dramatique) au rang d’« accessoire de théâtre » (114).

Mais d’où cette vision manichéenne peut-elle bien provenir ? Force est de constater qu’aucun témoignage direct ne vient accréditer l’existence, à partir de la Renaissance, d’une caste de grammairiens mus par un « volontarisme normatif » (129) diffus et orienté, et encore moins la thèse selon laquelle un tel groupe aurait œuvré de manière concertée à la « réactivation » (129) de prononciations archaïques au nom d’une « sacralisation » (110) de l’écrit qui voulait qu’on « articule toutes les lettres » (129).

De fait, le cercle des grammairiens semble bien avoir été créé de façon largement rétrospective vers la fin du xix^e siècle par Charles Thurot (Footnote: Charles Thurot, De la prononciation française.). Cherchant à collecter le plus grand nombre possible de témoignages directs sur les usages phonétiques anciens, ce grand érudit trouva probablement commode de qualifier tous ses informateurs de « grammairiens ». Au nombre des adhérents posthumes à ce club très peu fermé, on trouve certes, pour ce qui est du xvi^e siècle, quelques savants qui n’auraient pas renié le titre, mais aussi et surtout une collection de personnages hauts en couleur sans autres points communs que leur humanisme et leur intérêt pour les sonorités de la langue. En vrac, plusieurs poètes de cour, un médecin latinisant, un pédagogue londonien, un instituteur marseillais farfelu, un pape calviniste enseignant le français aux germanophones, un avocat dijonnais facétieux et grivois, un gentilhomme huguenot aussi sévère à la rime qu’en religion…

Tant qu’elle ne servait qu’à nouer la gerbe de témoignages disparates, l’étiquette restait innoffensive. Le pas suivant a sans doute été franchi par Ferdinand Brunot qui, reprenant le travail de Thurot, adresse des critiques virulentes aux grammairiens en général, « gens tout farcis de latin » ou, au contraire, contaminés par des « habitudes de prononciation […] dialectales », dont les témoignages, grevés de « graves contradictions », sont jugés « peu sûrs (Footnote: Ferdinand Brunot, Histoire de la langue française, II, « Le xvi^e siècle », p. 242 sq.) ».

C’est ce texte, auquel elle semble adhérer sans réserve, que Demonet cite en tête de son travail. Or, si l’idéologie de Brunot, et en particulier sa méfiance envers les grammairiens et autres latinisants, peut s’expliquer dans le contexte des années 1900 et à la lumière de son engagement politique et de pédagogue, elle apparaît aujourd’hui largement décalée. En un temps où les sources primaires se sont enfin mises à circuler sans entrave sur les réseaux informatiques, peut-on décemment s’en tenir, pour la diction des textes de la Renaissance, à quelques « préceptes de bon sens lus dans Brunot et Gougenheim (Footnote: Georges Gougenheim, Grammaire de la langue française du xvi^e siècle.) » (112), deux ouvrages certes estimables, mais dont le plus actuel remonte à 1951 ?

D’un modèle à l’autre

Le modèle auquel se réfère implicitement Brunot, hérité des néo-grammairiens du xix^e siècle, repose sur un postulat de pureté linguistique : en un lieu et un temps donnés, tous les locuteurs devraient tomber d’accord sur un seul et même usage ; de plus, tout changement devrait se produire de manière instantanée et en conformité avec des « lois phonétiques » immanentes. Un tel modèle n’est pas à même d’intégrer le fait que les grammairiens (Footnote: Faute d’un meilleur terme, on continuera à les dénommer ainsi.) de Thurot donnent des témoignages parfois contradictoires ; pour le sauver, Brunot n’a d’autre choix que d’ostraciser la totalité des témoins et donc, d’une certaine manière, de nier tout ou partie des données historiques.

En somme, la dichotomie de Brunot-Demonet donne lieu à un embarrassant paradoxe. En tant que lettrés et du seul fait qu’ils émettent une opinion sur la langue, tous les témoins des xvi^e et xvii^e siècles se font taxer de grammairiens, et sont immédiatement disqualifiés. Il reste donc un choix impossible : reconstituer sur la base de témoignages réels une prononciation jugée par avance aberrante, ou se lancer dans la vaine quête d’une prononciation dont on voudrait qu’elle soit authentique, mais en s’appuyant sur une absence de témoins.

Ne pourrait-on pas plutôt poser que les grammairiens s’expriment de manière adéquate sur la réalité, mais sur une réalité plus complexe que celle dont le modèle de Brunot est capable de rendre compte ? Il faudrait donc améliorer un modèle reconnu simpliste, afin de le rendre apte à intégrer toute la diversité et toute la complexité des témoignages historiques.

De fait, il n’y a pas besoin de chercher très loin un modèle mieux adapté. Dans le recueil même qui publie le travail de Demonet, Anthony Lodge (Footnote: Anthony Lodge, La question de la « langue commune » en français.) adopte le point de vue de la sociolinguistique historique et de la dialectologie urbaine. Selon lui, si l’approche traditionnelle fondée sur la pureté dialectale peut à la rigueur convenir à la description des parlers de petites communautés rurales vivant en quasi-autarcie, elle devient inopérante lorsqu’il faut rendre compte du brassage linguistique intense dont les villes sont le théâtre.

Dans un espace urbain comme celui de Paris au xvi^e siècle, des centaines de milliers d’individus issus d’horizons divers se croisent, conversent et sont condamnés à l’intercompréhension. Depuis le Moyen Âge, un processus de koinéisation (Footnote: La koinè est la langue commune qui s’était développée dans l’Antiquité à partir des différents dialectes du grec et, par extension, toute langue commune supra-dialectale.) est à l’œuvre, qui a fait émerger une langue nivelée supra-dialectale. Comme cette langue est restée beaucoup plus hétérogène qu’un dialecte local, elle comprend de nombreuses variables (Footnote: On appelle variable toute entité linguistique susceptible de se réaliser de plusieurs manières différentes, chacune de ces manières étant appelée variante.), et en particulier des variables phonétiques, dont certaines des variantes se verront attribuer une valeur, fonction du prestige social qu’on leur reconnaîtra. Prises dans leur ensemble, les plus valorisées d’entre elles constitueront une norme cultivée qu’on associera finalement au parler de l’« honnête homme ». C’est précisément à cette norme — et non au parler spontané du peuple — que se réfèrent les grammairiens du temps lorsqu’ils parlent de « langue commune », et c’est elle qui deviendra, au xvii^e siècle, ce qu’on appelle encore aujourd’hui le « bon usage ».

Comme l’admet Lodge (Footnote: Anthony Lodge, La question de la « langue commune », p. 83), cette norme n’est pas la langue réelle mais une langue idéale, autrement dit une « construction entièrement idéologique ». Demonet et Lodge s’accordent donc sur son caractère construit, mais là où Demonet, après Brunot, s’applique à la dénigrer en la réduisant au caprice de quelques-uns, Lodge l’accueille comme celle « à laquelle toute personne humaine devrait aspirer » (c’est lui qui souligne), deux attitudes diamétralement opposées, mais dont seule la seconde est tenable, la première (Footnote: Elle correspond à la prémisse mineure du syllogisme initial.), comme on vient de le voir, menant droit au paradoxe.

Négocier la norme

Le chercheur qui voudrait, dans un but archéologique, reconstituer la langue du petit peuple de Paris à la Renaissance ou au xvii^e siècle se trouverait confronté aux pires difficultés : il n’existe que fort peu de témoignages sur ces usages spontanés, beaucoup trop peu pour s’en faire une représentation cohérente. Par comparaison, le praticien qui, dans un but artistique, souhaite déclamer « à l’ancienne » des vers de cette époque sera bien mieux loti : comment imaginer, en effet, que l’idéal de diction qui prévalait alors ait pu diverger fondamentalement de celui auquel sont justement attachés les grammairiens ? Comment se pourrait-il, par exemple, que le poète Peletier du Mans ait souhaité qu’on prononce ses vers autrement que ne le demande le grammairien Peletier du Mans, alors qu’on trouve la même graphie phonétique dans le Dialogue, œuvre « grammaticale » et dans l’Amours des Amours (Footnote: Jacques Peletier du Mans, Dialogue de l’Ortografe e Prononciacion Françoese et L’Amour des amours.), recueil poétique ?

En l’absence d’une autorité officielle et incontestée qu’on aurait chargée de l’édicter (Footnote: Même au faîte de sa réputation, l’Académie française n’a, dans les faits, jamais pu conquérir une telle autorité.), la norme cultivée se négocie de manière continue entre l’ensemble des locuteurs qui s’en réclament, chacun étant susceptible de l’influencer à la hauteur de l’autorité qui lui est reconnue par le groupe. Loin de le déranger, les avis parfois divergents des grammairiens s’intègrent donc dans le modèle en tant qu’échos fragmentaires de cette négociation. Plus il sont nombreux et riches — leur nombre ne fera qu’augmenter avec le temps — et plus sera précise la représentation qu’on peut, à distance, se faire du bon usage.

En tant que norme cultivée, ce bon usage que les grammairiens de Thurot nous aident à appréhender s’impose comme le point de départ obligé de toute approche historique de la déclamation.

Variables et changements

Comme le relève aussi Lodge, « le changement linguistique est un processus permanent et graduel (Footnote: Anthony Lodge, La question de la « langue commune », p. 87.) ». Pour une variable donnée, il se peut qu’une variante qui prédominait à un moment donné soit supplantée par une autre, auparavant minoritaire. Lorsqu’il est possible de mesurer cela sur la durée, on observe une lente augmentation de la fréquence de cette dernière. Mais il se peut aussi que, indépendamment de leurs fréquences réelles, les valeurs respectives attribuées à deux variantes s’inversent : de valorisée, l’une devient « viellie » et c’est à l’autre, auparavant stigmatisée, que sera reconnue la valeur la plus élevée.

Le roi

Lodge se risque à illustrer par un graphique (Footnote: Anthony Lodge, La question de la « langue commune », p. 88.) le très long déclin de la variante [wɛ] au fur et à mesure que progresse la variante [wa], qui s’est imposée dans un mot comme roi (figure 1). Les données sont fictives mais plausibles : il s’agit d’une hypothèse sur les résultats qu’on aurait obtenus si l’on avait pu, tous les cinquante ans, soumettre à une enquête un échantillon représentatif de la population parisienne. On note l’extrême lenteur du changement : cinq à six siècles entre l’apparition de la variante nouvelle et la disparition de l’ancienne. Durant toute cette période, il devait être possible d’entendre, à Paris et parfois dans la bouche du même locuteur, aussi bien l’une que l’autre.

Figure 1. De [wɛ] à [wa] : variation de la norme statistique

Mais le point de vue reste étroitement statistique : on s’est contenté de noter des fréquences (supposées) sans tenir aucun compte de la valeur attribuée au cours du temps à chaque variante. Or, une enquête qui tiendrait compte de cette valeur, autrement dit du prestige social associé à chacune d’entre elles, aurait une allure bien différente. À l’échelle d’un changement qui s’étale sur plusieurs siècles, les grammairiens de Thurot témoignent d’un basculement d’opinion extrêmement rapide : sur une période inférieure à un siècle, ils changent d’avis sur la question. Vers 1700, chacun s’accorde encore à préférer la variante historique ([wɛ]) et à condamner la variante nouvelle. C’est alors que les avis se mettent à diverger, jusqu’au moment où, vers la fin du xviii^e siècle, tout le monde ou presque s’accorde à nouveau, mais pour considérer la variante historique comme vieillie et valoriser la variante nouvelle ([wa]).

Figure 2. De [wɛ] à [wa] : basculement de valeur

Dans la figure 2, on a osé superposer au changement statistique (tel que Lodge l’a reconstitué) ce qu’a pu être le basculement de la valeur attribuée à [wa]. On propose de le représenter au moyen d’une courbe « en S » (ou sigmoïde), fonction mathématique couramment utilisée pour modéliser les réactions chimiques, les épidémies, les changements sociaux, etc (Footnote: Fondée sur l’exponentielle, elle rend bien compte des phénomènes de basculement : après une phase d’amorce à croissance lente (les premiers adeptes sont difficiles à recruter), la croissance s’accélère (chaque adepte gagné est devenu recruteur) puis s’infléchit (le réservoir des personnes à gagner s’épuise et il reste quelques irréductibles). On pourrait aussi probablement modéliser le changement statistique au moyen d’une courbe en S dont la pente serait cinq ou dix fois moindre que celle du basculement de valeur.).

Une « photographie » prise peu après 1700 pourrait donner l’impression que les grammairiens sont « conservateurs », voire « réactionnaires » : ils condamnent encore de manière unanime une prononciation qui est déjà majoritaire. Il faudrait alors admettre qu’ils sont devenus « progressistes » voire « révolutionnaires » moins d’un siècle plus tard puisqu’ils tendent à préférer une variante qui ne s’est, et tant s’en faut, pas encore complètement imposée. On voit bien que cette grille de lecture n’est pas adéquate : elle consiste à comparer une fréquence objective à un jugement de valeur. En fait, comme tout locuteur, et comme tout honnête homme, un grammairien est soumis aux forces qui traversent et organisent la société : il se trouvera donc toujours pour ainsi dire acculé aux usages les plus consensuels. Mais comme tout locuteur, et comme tout honnête homme, ce même grammairien participe à la négociation dont ressort, un peu comme à la criée, la valeur d’une variante linguistique à un moment donné. À ce titre, il pourra, dans certaines limites, adopter une position de pointe en « misant » sur une variante donnée qui n’est pas forcément celle qui a les faveurs de la cote.

Il arrive parfois que les usages retenus pour le discours public (autrement dit la norme soutenue) s’écartent de ceux de la conversation privée (le bon usage). Si l’on en juge par les grammairiens, cela ne semble pas être clairement le cas pour cette variable précise. Un tel écart est en revanche attesté pour une variable très voisine : s’agissant du -ois des imparfaits (faisois), on sait par Vaugelas que, vers 1650, la variante [ɛ] s’était déjà imposée à la Cour, alors que le Parlement retenait la variante historique [wɛ] (Footnote: Claude Favre de Vaugelas, Remarques sur la langue françoise, p. 98.).

Les rois

Une autre variable dont discutent les grammairiens de la Renaissance est l’s du pluriel tel qu’il apparaît dans un mot comme rois # (Footnote: Le signe # représente le contexte dans lequel un mot est suivi d’une pause.). Ici aussi, deux variantes au moins sont en concurrence, [s] et ∅ (Footnote: Le signe ∅ désigne la variante zéro, c’est-à-dire l’absence de prononciation.), autrement dit prononcer ou pas l’s à la pause, et ici aussi il s’agit d’un changement qui s’étale sur plusieurs siècles.

Figure 3. De [s] à ∅

Comme les premiers signes indirects d’amuïssement de ces s apparaisent peu avant 1200 (Footnote: Voir, ici-même, Les consonnes finales. ) et que les grammairiens de Thurot en entendent encore au xviii^e siècle, vraisemblablement chez des provinciaux fraîchement immigrés, on peut reprendre sans vergogne les données fictives déjà utilisées pour oi, mais en les décalant de deux siècles vers le passé (figure 3). On peut donc postuler que les courbes statistiques des deux variantes se croisent vers 1500.

On discerne, chez les grammairiens, un basculement d’opinion du même type que celui qu’on observait pour oi ; il est donc tentant de poser une courbe sigmoïde qui pourrait s’amorcer au moment où s’expriment les premiers grammairiens de Thurot, soit un peu avant 1530. Alors qu’il apparaît clairement que la variante zéro (∅) est définitivement valorisée en 1630, les données correspondant au début du processus sont beaucoup plus floues, d’une part parce que les témoignages sont peu nombreux avant 1550, d’autre part parce que les témoins qui s’expriment au xvi^e siècle sont quelque peu hésitants.

Même si ces grammairiens préfèrent tous, en première intention, la variante [s], ils tendent presque tous aussi à nuancer : certains d’entre eux s’empressent de contredire, dans leurs exemples, le principe qu’ils viennent d’énoncer, d’autres reconnaissent que des personnes plutôt bien nées ne l’observent pas, ou pas systématiquement, d’autres, enfin, évoquent une consonne atténuée, voire une variante de compromis dans laquelle on n’entend pas ou presque pas l’s final mais où la voyelle qui précède est allongée (Vː∅). Contrairement à ce qu’on observe plus tardivement pour oi, on ne dispose pas d’une cohorte de grammairiens unanimes qui, avant l’amorce du basculement, s’expriment sans ambiguité en faveur de la variante historique. On ne sait donc pas si cette variante était déjà valorisée en 1500 et auparavant (courbe inférieure de la figure 3) ou si, au contraire, apparaît vers 1530 une position nouvelle consistant à miser sur la variante [s] auparavant considérée comme neutre (courbe supérieure de la figure 3). Dans ce dernier cas, on pourrait parler, pour cette variable précise et une durée de quelques décennies, d’une position légèrement conservatrice (Footnote: « Il était recommandé de prononcer à nouveau certaines consonnes finales, en fin de séquence, pour produire certains effets : mais le faisait-on ? » (129). Dans ce contexte précis, la question de Demonet apparaît légitime. On observe toutefois que le terme « à nouveau » laisse entendre qu’on avait auparavant complètement cessé de prononcer ces consonnes, ce qui n’est manifestement pas le cas : il s’agit juste ici de préférer l’une des variantes à disposition. D’autre part, il n’était pas question de « produire certains effets », mais seulement de se conformer à une norme.).

Pas plus que pour la variable oi, on ne trouve, chez les grammairiens, d’indice donnant à penser que, pour l’s du pluriel, la norme soutenue ait pu s’écarter de celle du bon usage. Rien n’atteste donc que, dans la déclamation, on ait pu préférer la variante [s] longtemps après 1600. Avant cette date, et plus qu’un usage constant et homogène, c’était probablement la variation qui était la règle.

La présence, jusque dans le théâtre classique, de rimes de type Vénus : venus dans lesquelles intervient un nom propre dont l’-s se prononce est parfois évoquée à l’appui de la thèse selon laquelle il serait nécessaire prononcer toutes les consonnes finales à la rime. Il s’agit plus vraisemblablement de licences sans portée générale, fournissant l’occasion de réactiver ponctuellement une variante déjà vieillie et dévalorisée, mais encore disponible.

Au vu de ce qui précède, le témoignage isolé de Bacilly (Footnote: Bertrand de Bacilly, Remarques curieuses sur l’art de bien chanter, p. 312 sq.) qui, en 1668, adopte, pour cette variable, une position très archaïsante, est à considérer comme relevant d’une norme particulière, propre aux chanteurs ou à certains d’entre eux, dont il serait téméraire d’étendre la validité à quelque forme de déclamation parlée que ce soit.

Le rat

À la pause, t final après voyelle brève a, en gros, évolué comme s final. Pour cette variable, la variante [t] est peu a peu supplantée par la variante ∅ (Footnote: Contrairement à ce qui se passe pour -s, la variante Vː∅ (amuïssement de la consonne finale avec allongement compensatoire) n’entre pas en ligne de compte pour cette variable.). Faute de données précises, on peut donc recycler les mêmes courbes que pour les deux variables précédentes (figure. 4).

Figure 4. De [t] à ∅

En parcourant les remarques des principaux grammairiens de Thurot, on ne relève par contre aucun basculement de valeur : tout se passe comme si les deux variantes restaient à peu près neutres. Comme l’illustre le tracé horizontal à hauteur de 50 %, ni la présence du [t], ni son absence ne semblent être considérées comme une marque de bon usage.

A plus forte raison aucune des deux variantes n’est valorisée pour le discours soutenu et même le chanteur Bacilly demande qu’on suive, pour cette consonne finale, « la prononciation qui est receuë dans le François ordinaire (Footnote: Bertrand de Bacilly, Remarques curieuses, p. 322.) ».

aller

On examine ici la présence ou l’absence d’articulation de la consonne finale des infinitifs en -er à la pause. Plus encore que pour les variables précédentes, on travaille dans une réalité strictement délimitée pour les besoins de l’expérience. En effet, on ne tiendra compte ni de la modification possible du timbre de la voyelle qui précède, qu’on voit passer de [e] à [ɛ] dans certains usages, ni de la variété phonétique de l’/r/ qui, d’un usage à l’autre et sans qu’on puisse le savoir avec certitude, est susceptible de passer de la variante historique [ɾ] (r alvéolaire battu) à [r] (r alvéolaire roulé), voire à l’une ou l’autre variété d’r uvulaire ([ʀ] ou [ʁ]) (Footnote: Pour un éclairage plus large sur la question, voir Philippe Caron, Une variable morpho-phonétique au xvii^e siècle ou Les consonnes finales.). Les deux variantes mises en concurrence sont donc /r/ et ∅.

On reprend une nouvelle fois (figure 5), pour mémoire, les courbes de fréquence fictives se croisant vers 1500 qui, quoique parfaitement hypothétiques, ne font que rappeler un fait général qu’aucune des données historiques à disposition ne vient démentir : l’amuïssement des consonnes finales, pour passer d’un état de langue originel où elles se prononçaient toutes à celui s’est stabilisé dans le courant du xviii^e siècle, est un processus extrêmement lent qui s’est étendu sur plus d’un demi-millénaire.

Figure 5. De /r/ à ∅

Sur cette toile de fond uniforme, la sigmoïde en trait plein figure le basculement d’opinion des grammairiens qui, pour la conversation courante, autrement dit le bon usage, favorisent de plus en plus la variante zéro. Pour autant qu’on puisse en juger à partir des témoignages disponibles, cette courbe est de quelques décennies plus tardive que celle du s final (figure 3). Mais l’élément le plus spectaculaire est l’existence (courbe en traitillés), largement attestée, notamment par les témoignages de Vaugelas et de Hindret, d’un écart très net entre le bon usage et la norme soutenue, celle-ci retenant, voire renforçant, la prononciation d’un r final qui s’efface dans le bon usage. Vigoureusement condamné par Vaugelas, cet écart donne lieu, dans la seconde moitié du xvii^e siècle, à un compromis : à condition que l’e qui précède soit maintenu fermé ([e]) et que l’r lui-même ne soit pas articulé trop fortement, cet écart sera toléré au moins jusqu’au milieu du xviii^e siècle ; on en trouve encore trace dans une caricature de la diction du grand tragédien Lekain (Footnote: Martine de Rougemont, La déclamation tragique en Europe au xviii^e siècle.).

S’agissant du chant, Bacilly, en 1668, se rallie au compromis négocié pour le discours public tel qu’en rend compte Hindret à la fin du siècle.

chanter

La dernière variable analysée ici est l’a nasal tel qu’il apparaît dans le mot chanter. La question des voyelles nasales reste, aujourd’hui encore, l’une des plus disputées en phonétique historique, aussi ne peut-il être question de la traiter dans son ensemble. La nasalisation des voyelles françaises est, comme tous les changements phonétiques déjà évoqués, un processus lent dont on admettra qu’il passe, au long de nombreux siècles, par trois stades successifs.

Au stade 1 une voyelle purement orale est suivie d’une consonne nasale parfaitement articulée : [kantaɾe]. Au stade 2, le voile du palais s’abaisse de manière désynchronisée, avant la fin de la voyelle, ce qui en modifie la sonorité et affaiblit l’articulation de la consonne nasale. Il en résulte un son complexe qu’on peut tenter de décomposer ainsi : [aɑ̃ⁿ]. Au stade 3, l’abaissement du voile du palais intervient encore plus tôt et se synchronise avec le commencement de la voyelle, qui devient complètement nasale, alors que la consonne nasale disparaît : [ɑ̃].

Figure 6. Du stade 2 au stade 3

Le stade 1 est commun au latin classique et à l’italien standard. Pour le français, ce n’est que le stade originel, hérité du gallo-roman ; le stade 2 a pu s’imposer très précocement, avant même les premières chansons de geste, c’est vraisemblablement de lui que tentent de rendre compte les premiers grammairiens de Thurot, et c’est encore lui qu’on entend aujourd’hui dans certains parlers méridionaux ; le stade 3 est le stade du français standard moderne ; il n’est pas expressément attesté avant la seconde moitié du xvii^e siècle.

Le changement envisagé ici concerne le passage du stade 2 au stade 3. Comme pour les précédents, on postule que les deux variantes correspondantes ont très longemps coexisté à Paris même. Il est cependant délicat de parler, pour la variante stade 3, d’un processus de valorisation. En effet, les grammairiens se bornent le plus souvent à donner une seule description d’a nasal (ou des voyelles nasales en général) : avant 1650, les descriptions, dans la mesure où elles font état d’une voyelle modifiée suivie d’une consonne atténuée, évoquent plutôt le stade 2 ; après, et en particulier à partir de Chiflet (1659), apparaît l’idée que la voyelle nasale est un « son » unique, le terme de « voyelle nasale » n’apparaissant qu’à partir de Dangeau (1694). Aucun grammairien ne formule de réel jugement de valeur sur l’une ou l’autre variante : tout se passe comme s’ils n’entendaient vraiment que celle qu’ils décrivent et restaient pour ainsi dire sourds à l’autre. La courbe sigmoïde en trait plein refléterait donc plus leur perception que leur appréciation.

Le premier auteur qui mette en balance les deux variantes est Bacilly. En bannissant énergiquement le stade 3 du chant et en réclamant qu’on s’en tienne au stade 2, il atteste, d’une part, que les élèves potentiels auxquels il s’adresse avaient déjà, dans leur parler de tous les jours, en majorité adopté la variante nouvelle ; d’autre part, il édicte, pour le chant et un peu comme il le faisait pour les -s finaux, une norme archaïsante qui pourrait trouver sa justification dans des impératifs techniques : la variante stade 3 était incompatible avec son esthétique vocale. Plus tard, les maîtres de chant continuent à privilégier la variante historique, mais seulement pour les tenues d’une certaine durée.

Aucun témoignage n’indique que la norme soutenue ait pu suivre celle du chant. Vu que les comédiens et autres orateurs n’étaient pas soumis aux mêmes impératifs vocaux que les chanteurs, et que la valorisation éventuelle de la variante stade 3 était peu marquée, on peut penser qu’ils restaient largement inconscients de leur usage propre et ne faisaient pas d’effort particulier pour en changer lorsqu’ils parlaient en public.

* * *

Le modèle proposé par Lodge ne diminue pas la marge d’incertitude inhérente à notre connaissance de prononciations dont il n’existera jamais aucun enregistrement ; il ne rend pas par enchantement moins fragmentaires les sources primaires, plus explicites les témoignages des grammairiens ; mais il reconnaît à ces derniers le statut de locuteurs « autorisés », dont l’opinion sur les usages de leur temps est importante et précieuse.

En représentant, variable par variable, les données à disposition dans un espace bidimensionnel, on fait apparaître de manière, certes hypothétique et approximative, mais aussi plus claire et plus synthétique que ne le permettrait une simple compilation, les variations de l’usage et les fluctuations de la norme. Pour les cinq variables examinées, le scénario est dans le fond identique : une variante est, très lentement mais comme inexorablement, supplantée par une autre. Mais, sur ce canevas immuable, les « acteurs » du temps vont improviser toute une variété de petites « comédies de mœurs » dont les détails sont, pour nous, d’une valeur inestimable. Ainsi, si l’on pouvait, au tournant du xxi^e siècle, supposer encore l’existence, aux siècles considérés, d’une « norme uniforme dans l’articulation des [consonnes] finales » propre au « discours public (Footnote: Jean-Noël Laurenti, La notion d’écart à travers la déclamation et le chant français des xvii^e et xviii^e siècles. Laurenti s’appuyait sur des références fournies en bonne partie par Eugène Green. Voir aussi Eugène Green, Le « lieu » de la déclamation en France au xvii^e siècle.) », on se rend compte aujourd’hui que cette hypothèse, manifestement trop simple, vole en éclats sous la pression des données historiques.

Écarts adaptatifs, écarts démarcatifs

Dans l’absolu, personne n’a jamais prétendu qu’il soit possible ou souhaitable de s’exprimer en public exactement comme on converse en privé : délivrer à un auditoire collectif qui n’a pas directement voix au chapitre, dans un agencement spatial asymétrique, un texte pré-rédigé, lu ou appris par cœur, ne va pas sans certains ajustements. Aussi personne ne s’étonnera-t-il de voir les grammairiens, à partir du xvii^e siècle au moins, faire ici ou là la distinction entre une norme familière et une norme soutenue. Mais la question peut être envisagée selon deux logiques inverses.

Dans la première, qu’on qualifiera d’adaptative, la norme soutenue s’écarte de la norme familière sous la pression des conditions d’exécution. Les écarts doivent ou devraient donc être motivés par ce qu’on pourrait appeler des contraintes externes : par exemple, assurer l’audibilité du texte, se conformer à la versification, ou alors exprimer plus vivement des passions (Footnote: En renforçant des consonnes, en variant le débit, en changeant de registre vocal, etc.). Dans la seconde logique, qu’on appellera démarcative, les écarts à la norme familière relèvent d’une intention, qu’elle soit complètement autonome, ou alors imposée sous la forme d’une règle intériorisée : rappeler sans cesse à l’auditeur que ce qu’il entend est bien un discours public.

Tant qu’un orateur use de sa puissance vocale, on peut estimer qu’il prend soin d’ajuster son action à la taille de la salle et à celle de de son public ; s’il en abuse, on peut lui reprocher de faire des effets de voix (Footnote: Voir à ce propos l’anecdote rapportée par Michel Le Faucheur, Traité de l’action de l’orateur, p. 58.). Dans le premier cas, on n’entendrait pas d’autre message que : « Je fais de mon mieux » ; dans le second, il assénerait : « Attention ! je suis en train de plaider ». Le même type d’écart peut donc, selon le cas et le degré, être reçu comme adaptatif ou comme démarcatif.

On voit également que, aux périodes considérées, un écart donné pouvait susciter l’intolérance lorsqu’il était ouvertement démarcatif, mais être mieux admis lorsqu’on pouvait se convaincre qu’il obéissait à une logique adaptative. Comme on l’a vu, prononcer un imparfait (parlois) « à pleine bouche » ([wɛ]) et contre le bon usage ([ɛ]) était reproché par Vaugelas à des plaideurs qui n’avaient manifestement conservé cette variante que pour se distinguer, mais le même Vaugelas n’aurait probablement eu d’autre choix que de la prescrire, comme le fait Mourgues (Footnote: Michel Mourgues, Traité de la poësie françoise, éd. 1685, p. 31.), dans le cas où parlois rime avec lois et où il n’est question que de s’adapter à une contrainte rimique.

Pour favoriser l’acceptation d’un écart, il était donc plus efficace d’embrasser la logique adaptative, et ce même si la nature adaptative de l’écart en question était sujette à caution. Lorsque Bacilly justifie sa préférence pour la variante archaïque (stade 2) des voyelles nasales par la nécessité d’éviter de « chanter du nez (Footnote: Bertrand de Bacilly, Remarques curieuses, p. 260.) », il fait appel à une contrainte externe indéniablement liée à la technique vocale, et donc au chant, et non à quelque intention de faire savoir qu’on chante. Mais lorsque le même Bacilly, pour justifier l’articulation de certains -s finaux, invoque l’impératif de « distinguer le singulier d’avec le pluriel (Footnote: Bertrand de Bacilly, Remarques curieuses, p. 313.) », il ne fait que revêtir d’un vernis adaptatif un écart qui est plus vraisemblablement démarcatif. En effet, si elle était réelle, la contrainte évoquée déploierait ses effets partout où il y a des singuliers et des pluriels, autrement dit dans tous les registres, bon usage compris, et non, comme c’est le cas, dans le chant seulement. L’exécutant qui applique cette consigne de Bacilly délivre donc bel et bien le message : « Ce que vous entendez est un air sérieux ».

À l’inverse, il semble bien qu’il était possible de susciter une réaction du public au moyen d’un écart ostensiblement démarcatif. Lorsque Molière, dans l’Impromptu de Versailles, demande à du Croisy de faire le poète en adoptant « ce ton de voix sententieux, & cette exactitude de prononciation qui appuye sur toutes les syllabes & ne laisse échapper aucune lettre de la plus severe ortographe », il amusera par deux fois. La première, immédiatement, parce que la consigne est déjà en elle-même une exagération comique : au xvii^e siècle, personne n’a jamais réellement prononcé toutes les lettres qui s’écrivent ou peuvent s’écrire ; la seconde lorsque du Croisy ouvrira la bouche : même s’il ne s’y conforme que partiellement, sa prononciation paraîtra encore bien assez ridicule pour faire sourire. On n’ose imaginer quelle aurait été la sidération du public de Molière si tous les personnages d’une comédie s’étaient mis à prononcer comme du Croisy jouant les pédants (Footnote: Sidération qui pourrait, par delà les siècles, rejoindre l’étonnement de Demonet et Caron face aux choix phonétiques que révèle le DVD du Bourgeois Gentilhomme paru chez Alpha en 2005. Marie-Luce Demonet, La langue à la chandelle, p. 112 ; Philippe Caron, Pouvons-nous reconstituer la diction haute du français vers 1700 ?).

Malgré l’existence bien attestée d’écarts phonétiques propres au discours public, on doit se rendre à l’évidence que ceux auxquels on pourrait reconnaître un caractère purement démarcatif sont rares pour la période considérée. Parmi les variables examinées ici en détail, seul le maintien de la variante /r/ dans la finale des infinitifs en -er semble échapper complètement à la logique adaptative, ce qui, de ce fait, suscitera des réactions d’intolérance.

Au lieu de la regarder comme un « usage encore meilleur » (ou un « oral de luxe »), ne devrait-on pas se résigner à considérer la norme soutenue comme un « moins bon usage », toléré sous condition, dans certaines circonstances et certaines limites ? Plus qu’une collection de « fanions » utilisés pour signaler des genres que, de toute façon, personne ne serait allé confondre, elle fonctionnerait alors comme une sorte de « boîte à outils » à la disposition de l’orateur consciencieux, mais dont il ne devrait user qu’avec mesure. L’unique norme cultivée capable de servir de référence commune resterait donc, pour le xvii^e siècle, le bon usage.

Déclamation « baroque » ou « historiquement informée » ?

« Élocution lente et emphatique […], prononciation marquée de tous les E sourds, de presque toutes les consonnes finales, articulation distincte de lettres étymologiques, nasalisations systématiques de “bon-nes”, mélodie chantante appelée “accent de hauteur” », tels sont les traits que relève Demonet dans la prononciation des disciples d’Eugène Green (Footnote: Probablement à l’écoute du DVD du Bourgeois Gentilhomme dont il a déjà été question.), et qu’elle assimile à une « vulgate (Footnote: La « crainte qu’une prononciation restituée, victime de son succès, ne finisse par être diffusée comme une vulgate » apparaissait déjà dans l’« Appel pour la constitution d’un groupe de recherche sur la prononciation du français dans la poésie, le chant et la déclamation du xvi^e au xix^e siècle » lancé par Jean-Noël Laurenti début 2005. Voir à ce propos l’introduction du deuxième numéro des Annales de l’ACRAS, disponible sur <http://www.acras17-18.org/>.) de la prononciation du français d’Ancien Régime » ; celle-ci « viendrait des recherches sur la déclamation de l’époque » et serait « en principe justifiée par les travaux des historiens de la langue » (112). C’est sans doute à raison que Demonet se montre prudente et use du conditionnel en posant la majeure de son syllogisme. On voit mal en effet quel historien de la langue pourrait aujourd’hui reprendre le tableau à son compte, et chez quels grammairiens du temps il serait allé le trouver.

C’est peut-être chez le seul Bacilly qu’on pourrait, en cherchant bien, trouver groupés au moins une partie de ces traits, ce qui n’est pas sans questionner : même s’il positionne son traité comme utile à la déclamation, le maître de chant reste indéniablement centré sur l’enseignement de son art. Vouloir étendre au discours parlé celles de ses consignes qui ne seraient corroborées par aucune autre source est donc difficilement justifiable, ce d’autant plus que Bacilly présente sa vision du chant avec une subtilité et un luxe de nuances qu’on est très loin de retrouver dans le tableau brossé par Demonet.

De fait, on ne peut qu’être frappé, à l’écoute, par la radicalité dont font montre les tenants de la vulgate en question, radicalité qui semble se cristalliser dans le seul mot de « baroque (Footnote: Ce sont tour à tour la déclamation, le théâtre, la mise en scène, la parole, le chant, la voix, la musique, le musicien, son instrument, l’homme entier voire la civilisation dans son ensemble qui sont assortis de ce qualificatif devenu tellement polysémique qu’il ne fonctionne plus que comme un rideau de fumée.) », et qui pourrait expliquer en retour la radicalité des réactions d’adhésion ou d’intolérance mentionnées en préambule. On a l’impression que les artistes impliqués sont sans cesse animés par la volonté d’affirmer une différence, qu’on pourrait résumer dans le message suivant : « Ce à quoi vous assistez est un spectacle baroque ». L’attitude est si manifestement démarcative qu’on comprend mieux le caractère parfois grossièrement approximatif des traits phonétiques mis en évidence : dès lors que le message passe, et que les spectateurs sont rendus capables d’identifier à la première réplique un spectacle « baroque », les méandres d’une recherche historique rigoureuse peuvent apparaître fastidieux (Footnote: Demonet, La langue à la chandelle. p. 112, relève la fragilité méthodologique d’un article déjà ancien d’Eugène Green. Son essai, La Parole baroque, Paris, Desclée de Brouwer, 2001, ainsi que les ouvrages d’autres pionniers de la démarche, pourraient prêter le flanc à la même critique.). En exagérant dogmatiquement la fonction démarcative attribuée à la norme soutenue, ils mettent une vision hallucinée du xvii^e siècle au service de leur propre velléité de se distinguer.

Un très récent projet visant à « jouer L’École des femmes à la lumière des sources du xvii^e siècle » devrait contribuer à recentrer le débat. Conduit par un binôme associant une chercheuse en théâtre et un artiste polyvalent (Footnote: Bénédicte Louvat-Molozay et Pierre-Alain Clerc. Par souci de clarté, le soussigné se doit de signaler qu’il est personnellement mis à contribution au sein de ce projet.), caractérisé par un fort ancrage universitaire, il vise avant toute chose à favoriser la circulation des idées entre chercheurs et praticiens, en confrontant les premiers aux contraintes du jeu théâtral et en sensibilisant les seconds à la rigueur de la recherche historique : autant ceux-ci profiteront d’être guidés dans leur abord des sources primaires, autant ceux-là pourront affiner leurs hypothèses en les mettant, pour ainsi dire, à l’épreuve du feu.

Soucieux de ne pas instrumentaliser les sources historiques au profit d’une esthétique prédéterminée, ses promoteurs adoptent, vis-à-vis de la connaissance historique, une attitude essentiellement adaptative : les comédiens s’efforceront de se laisser contraindre par les hypothèses des chercheurs, confrontant par la même occasion ces derniers aux conséquences pratiques de leurs assertions. La démarche ne saurait toutefois être qualifiée d’« archéologique » : il s’agit d’un projet pleinement artistique qui fait le pari que, loin de les brimer, la contrainte historique, au contraire, stimulera le potentiel créatif des comédiens. On retrouve donc ici les ingrédients d’une approche dite « historiquement informée » qui, lorsqu’elle a pu fédérer musicologues et musiciens, s’est révélée extrêmement féconde dans la redécouverte des musiques anciennes.

Grand écart ou petits écarts ?

Dans un premier temps, la démarche proposée aux comédiens consistera, tout simplement, à les familiariser avec le bon usage tel qu’il peut ressortir des sources les plus complètes et les plus précises du xvii^e siècle (Footnote: La fiche annexée peut les aider à s’en faire une première idée.). L’exercice est, en fait, beaucoup moins trivial qu’il n’y paraît. Comme la différence entre ce bon usage ancien et le nôtre est souvent ténue, beaucoup de finesse et un patient travail seront nécessaires pour percevoir, intérioriser et restituer ce qui apparaît bel et bien comme comme un « petit écart ».

À ce petit écart s’en ajouteront bientôt d’autres : intégrer les contraintes liées au texte versifié, et celles imposées par le dispositif scénique, tout en réfléchissant à l’exigence de « naturel » qu’on a coutume de prêter à Molière. Ici, il ne peut être question de dessiner à gros traits. Il faut au contraire s’efforcer de travailler sur des nuances, ce qui n’est pas immédiatement spectaculaire, mais n’en est que plus exigeant d’un point de vue technique.

De multiples autres écarts s’imposeront ensuite, liés aux différents caractères représentés. On n’imagine pas, en effet, que Molière ait pu imposer à tous ses comédiens une prononciation à la fois artificielle et uniforme. Comme le révèlent notamment l’Impromptu de Versailles ainsi que les multiples indices graphiques dont est parsemé le texte de ses pièces, Molière aimait à jouer avec toutes sortes de « mauvais usages » dont il affuble, à une extrémité, les valets et les paysans, à l’autre, les pédants et les docteurs (Footnote: Voir la communication de Pierre-Alain Clerc au colloque de Tours (2014).).

Là où la vulgate baroque impose de manière uniforme un seul « grand écart » démarcatif porteur d’un message univoque, l’approche historiquement informée suggère aux comédiens de parsemer leur jeu de multiples petits écarts adaptatifs visant à donner, en adéquation avec le contexte historique, une image théâtralisée et donc stylisée de cette variation caléidoscopique qu’on trouve au centre de la vision des sociolinguistes. Exigeante pour les praticiens, cette démarche place aussi les chercheurs devant leurs responsabilités : on n’imagine pas qu’elle puisse s’engager sans une étroite collaboration entre les deux mondes. Or, à ce jour, la recherche en est encore au stade des rudiments. Il serait à souhaiter que des historiens de la langue fassent équipe avec des historiens du jeu théâtral pour dépouiller de manière un tant soit peu systématique les nombreuses sources primaires traitant de la langue et des usages.

C’est lorsque savoir et savoir-faire circulent sans entrave entre chercheurs et praticiens que l’approche historiquement informée donne, en musique, les meilleurs résultats. Lorsqu’on croit, à tort, que la recherche est terminée, les musiciens se mettent à ronronner et leurs exécutions perdent de leur intérêt : l’effet « vulgate » n’est pas loin. En théâtre, on a pu avoir l’impression que la vulgate s’était installée avant même que ne commence la recherche. Il n’est pas trop tard pour rectifier.

Communication au séminaire Déclamation, chant et danse en France aux xvii^e et xviii^e siècles : niveaux, lieux de performance, courants et filiations, organisé par Jean-Noël Laurenti et Bénédicte Louvat, Tours, CESR, 23 mai 2014.

Annexe – Fiche « bon usage »

Fiche établie pour le projet « L’École des femmes à la lumière des sources du xvii^e siècle ».

Esquisse historiquement plausible de ce qu’a pu être le « bon usage » dans la seconde moitié du xvii^e siècle, d’après les témoignages de grammairiens comme Vaugelas, Chiflet, Hindret, Dangeau, ou la graphie phonétique de Vaudelin. Par « bon usage », on entend une norme idéale vers laquelle devait tendre, sans jamais l’atteindre, tout honnête homme soucieux de bien parler ; si certains des traits d’une telle norme sont bien fixés et font l’unanimité, d’autres suscitent l’hésitation ou le débat. On trouvera ici quelques principes généraux qui pourront guider les choix des comédiens et leur servir d’aide-mémoire, mais ne devraient en aucun cas les dispenser de se plonger eux-mêmes dans les sources. Certains traits, qui ne relèvent pas de la conversation familière, mais sont imposés par le discours public ou la diction des vers, sont signalés en italique.

Voyelles

a : un seul timbre, [a]. Pas d’opposition entre [a] et [ɑ] comme aujourd’hui, mais entre [a] (bref) et [aː] (long).
e : trois timbres : [e] (fermé), [ɛ] (ouvert) et [ə] (féminin), ce dernier pouvant encore correspondre à un e central non labialisé et non à un ([œ]/[ø]) comme aujourdhui.
- En syllabe tonique, la distribution [e]/[ɛ] est, en première approximation, comparable à celle d’aujourd’hui, mais on peut décider d’en affiner la description sur la base du témoignage d’un grammairien en particulier. La rime peut aussi forcer à des aménagements ponctuels.
- En syllabe atone, la distribution e sonore/[ə] est, en première approximation, comparable à celle d’aujourd’hui. Il sera beaucoup plus difficile de trancher, en cas de e sonore, entre [e] et [ɛ], les oppositions étant beaucoup moins tranchées qu’en syllabe tonique, et sujettes à débats. Une possible solution pratique est de rechercher un e « médiocre », intermédiaire entre [e] et [ɛ].
i : [i]
o : Il n’existe pas d’opposition claire entre [o] et [ɔ], mais plutôt entre un o bref, [ɔ], et un o long, [ɔː] (par convention, on utilise ici le signe [ɔ] pour tous les o, mais il est probable que, sans que cela soit distinctif, le timbre des o ait pu varier en fonction du contexte, par exemple en s’ouvrant devant r et en se fermant devant les consonnes nasales ou dans certaines syllabes atones).
ou : [u]. N’est autre qu’un o fermé à l’extrême.
eu : en théorie, le digramme eu ne se réalise que sous sa forme fermée, [ø], mais il n’est pas exclu qu’il ait déjà tendu à s’ouvrir ([œ]) en syllabe fermée comme c’est le cas aujourd’hui. Dans le doute, il est probablement plus sûr de le maintenir fermé.

Diphtongues

Le bon usage de cette époque ne connaît plus ni diphtongues ni triphtongues. Les digramme et trigramme au et eau sont phonétiquement équivalents à o et les voyelles consécutives comme ie, ui peuvent être considérées comme des suites semi-voyelle (ou glissante) – voyelle ([je], [ɥi]).

oi : la prononciation canonique de ce digramme consiste en la glissante [w] suivie d’un [ɛ] (e ouvert). Dans certains cas, comme les imparfaits et les conditionnels ainsi que certains mots comme croire, droit (voir par exemple la liste de Vaugelas), oi se prononce comme un simple [ɛ]. S’il y a conflit à la rime, c’est, ponctuellement, la prononciation canonique qui l’emporte.

Voyelles nasales

Si l’on en croit les témoignages de grammairiens comme Chiflet, Hindret, Dangeau, c’est déjà une prononciation proche de l’actuelle (voyelles complètement et uniformément nasalisées sans vestige consonantique) qui prédomine, et non une prononciation de type méridional (nasalisation progressive de la voyelle avec persistance d’un vestige consonantique), comme on la trouve chez Bacilly. On discute pour savoir si le français compte quatre ou cinq voyelles nasales.

[ɑ̃] : correspond à la graphie an et à certaines graphies en, avec en gros, la même extension qu’aujourd’hui.
[ɛ̃] : correspond aux graphies ain et ein et à certaines graphies en et in avec, en gros, la même extension qu’aujourd’hui (système à quatre voyelles nasales).
[ɔ̃] : correspond à la graphie on.
[œ̃] : correspond à la graphie un. Bien distincte de [ɛ̃] car elle s’accompagne d’une projection des lèvres. Le parisien actuel tend au contraire à confondre ces deux voyelles nasales. Pouvait être plus fermée que le [œ̃] moderne ([ỹ]).
[ĩ] : correspondant à un i nasal, son inexistant en français moderne, cette cinquième nasale persiste, selon certains grammairiens, en initiale de mot et notamment dans les in- privatifs.

Consonnes non finales

De manière générale, elles ont la même prononciation qu’aujourd’hui.

h : selon certains grammairiens, peut encore être légèrement aspiré (et non simplement disjonctif comme aujourd’hui).
r : il est difficile de savoir dans quelle mesure l’r dorsal moderne, [ʀ] pouvait avoir, à Paris, déjà remplacé l’r apical ancestral, [r]. Pour le discours public, et qui plus est la scène, il sera toujours plus sûr de retenir l’r apical traditionnel. La distinction ancestrale entre r « faible », intervocalique, battu, [ɾ] et r « fort », initial, implosif ou double, [r] persiste encore dans une certaine mesure.
x : suivant les cas, se prononce comme un simple s (escuse), comme [gz] (exemple, Xavier) ou comme [ks] (mots les plus savants).

La distinction r faible, r fort mise à part, le bon usage ne connaît aucune consonne géminée.

En première approximation, des consonnes graphiques qui ne sont pas prononcées aujourd’hui ne l’étaient pas non plus à la fin du xvii^e siècle : escripre, encore attesté au xvii^e siècle, se prononçait donc bien sûr [ekriɾ(ə)].

Consonnes finales

Il existe un certain nombre de mots, en particulier terminés par -c, -r, -l, -f dont la consonne finale se prononce dans tous les contextes (devant consonne, devant voyelle et à la pause). Voir par exemple la liste de Hindret.
Toutes les autres consonnes finales sont muettes hormis en liaison. À l’intérieur des vers, toutes les liaisons possibles sont requises, indépendamment de la syntaxe et de la ponctuation, à l’exception de la césure (décasyllabes et alexandrins) où la liaison est facultative.
Les s finaux, et en particulier les marques du pluriel (s, z, x) sont, hors liaison, muettes en tant que consonnes mais se font entendre, dans les terminaisons masculines, par un allongement de la voyelle qui précède. Les -s finaux de mots comme fils, sens, qui se prononcent aujourd’hui, sont également muets.
t final, directement précédé d’une voyelle brève (ce qui exclut, par exemple, -art, -ant, -ât, -aut), peut se prononcer à la pause, mais cela n’est pas particulièrement valorisé.
Les noms propres à consonnance gréco-latine (Agnès) ou exotique font entendre leur consonne finale dans tous les contextes. Il peut arriver que l’un de ces nom propres, placé à la rime, force localement la prononciation d’un s final normalement muet.
En parlant en public, on tend à prononcer, dans tous les contextes et non seulement à la pause, quelques consonnes finales ordinairement muettes : l de il, r de leur, r des infinitifs (de manière inconstante). Si l’on en croit Hindret, l’habitude ancienne d’ouvrir les e des infinitifs en -er lorsqu’on en prononçait l’r était réprouvée par Molière.

Dynamique syllabique

C’est le domaine où la diction des vers se distingue le plus de la conversation courante, qui est probablement, au xvii^e siècle, plus relâchée (moins de liaisons, plus d’apocopes et de syncopes) que ce qu’on entend aujourd’hui par « bon usage ».

La plupart des e féminins finaux ne se prononcent plus à la fin du xvii^e siècle. En vers, il faut probablement les faire entendre « à-demi », c’est-à-dire très faiblement, en fin de vers et pleinement à l’intérieur du vers lorsqu’ils ne sont pas élidés. Il est également interdit d’élider un e féminin suivi de s ou de nt : toutes les syllabes numéraires du vers doivent s’entendre distintement.
Le vers (ou l’hémistiche) représente une seule unité de cosyllabation, donc une seule chaîne articulée sans interruption. Toute interruption de cette chaîne représente un effet oratoire et doit être soigneusement calculée.

Footnotes: