L’objectif
Imaginez un logiciel qui analyse un roman, non pas sur le fond, mais exclusivement sur la forme. Avec un tel outil:
- Verrait-on une différence entre la littérature de « genre » et la « blanche » ?
- Le jury Goncourt aurait-il pu déceler Romain Gary derrière Emile Ajar ?
- Il y a-t-il un « pattern » du succès commercial ? Lequel ?
- Les oeuvres d’un auteur sont-elles homogènes tout au long de sa carrière ?
- Il y a-t-il des ovnis littéraires, dont le style est éloigné de tous leurs confrères ?
La réponse est oui. Voyons comment.
L’algorithme
Points de mesure et distance
J’ai développé un logiciel : certains parleront d’IA (Intelligence Artificielle), mais nous n’en sommes pas encore là. Je préfère parler d’analyses statistiques. L’algorithme mesure 14 critères sur 380 ebooks. Je vous en donne 7 : le taux de virgules, de dialogues, de points d’exclamation, d’adverbes, de mots longs, de mots grossiers, le nombre de mots par phrase.
Une fois ces critères normalisés, on peut calculer une « distance » entre chaque auteur. Cela traduit une forme de proximité dans le style. Par exemple, Balzac est proche de Stendhal (8,7), mais éloigné de Bukowski (48). L’échelle est la suivante.
Regroupement en 4 axes
Ces 14 critères sont regroupés en 4 thématiques
- Le rythme du texte (longueur des phrases)
- L’oralité (la présence de dialogue, de mots grossiers, de !, …, ?)
- La facilité (présence de verbes simples conjugués au présent, nombreux adverbes, des expressions « clichés », par exemple « blanc comme neige », …)
- La complexité (mots longs ou phrase longue articulée par des conjonctions de coordination)
On obtient des diagrammes radar de ce style, bien pratiques pour comparer 2 auteurs.
Exemple évident : nous savons tous que San Antonio n’a pas du tout le même style que Marcel Proust. Une plus grande oralité, un rythme plus rapide, une grande facilité. Mais cet exemple outrancier est important pour introduire une notion importante : cette méthode n’est pas destinée à juger de la qualité d’une oeuvre. L’analyse du style ne préjuge pas de la qualité littéraire d’un roman ou de sa puissance narrative. Avec cette méthode, Marcel Pagnol a un score important en oralité et Albert Cohen, en facilité. A titre d’illustration, voici la comparaison entre Jean Giono et Fred Vargas : deux genres différents, deux regards différents sur le monde, et pourtant, des styles très comparables selon ce logiciel.
Que peut-on faire de cet outil ?
1. Littérature de genre
Commençons par enfoncer des portes ouvertes. Qu’est-ce-qui fait la différence entre la littérature de genre (ici le polar) et la littérature « blanche » contemporaine ? Sans surprise, l’oralité et le rythme sont deux critères permettant de ségréguer très nettement nos deux échantillons représentatifs.
Notons au passage que les critères Oralité et Rythme sont bien corrélés.
2. Évolution tout au long d’une Oeuvre
Amusons-nous à étudier la proximité des romans d’un même auteur tout au long de sa carrière.
Victor Hugo : Ses oeuvres sont très proches ; même les jaunes sont proches de la limite du vert.
Bernard Werber, l’analyse chronologique montre une belle homogénéité, sauf pour son miroir de Cassandre, qui se distingue légèrement de ses premiers livres.
Contrairement à l’idée reçue que « tous les Amélie Nothomb se ressemblent », la matrice ci-dessous montre une certaine diversité dans le style que cette romancière emploie. C’est une des rares à franchir la barre du orange – sans emprunter un pseudonyme.
Une analyse plus exhaustive de la proximité des 88 romans de Balzac, montre aussi une prédominance de verts (81%) et environ 19% de jaunes. Un seul orange, Petites misères de la vie conjugale : texte écrit entre 1830 et 1846 et publié par chapitre dans plusieurs revues, ce qui peut justifier un style disparate.
Une analyse de 15 textes de Patrick Modiano montre que ses deux premiers romans (La place de l’étoile et La ronde de nuit) se démarquent du reste de sa production.
Pour illustrer, voici l’empreinte radar de ses deux premiers romans et de Rue des boutiques obscures qui lui valut le Goncourt dix ans plus tard en 1978.
Détection de pseudonymes ?
Mais alors, serait-il possible de détecter parmi les textes d’un auteur, lesquels il n’aurait pas rédigés (#JeSache), ou à l’inverse, un même romancier qui se cache derrière deux pseudonymes ?
On pense évidemment à Romain Gary qui a gagné deux fois le prix Goncourt. Une première fois en 1956 pour Les racines du ciel, une seconde fois en 1975 pour La vie devant soi signé Emile Ajar.
Rendons justice au jury : le logiciel confirme la distance importante entre ces deux textes et la difficulté de démasquer le farceur !
Moins réussie, la tentative de Boris Vian d’écrire sous la plume de Vernon Sullivan. Avec ce logiciel, la supercherie aurait été facilement dévoilée.
Une recette du succès ?
En analysant bien tous les romans et en corrélant avec leur succès commercial, pourrait-on, avec ce logiciel, trouver « la recette du succès commercial » ? Les auteurs qui vendent le plus ont-ils des points communs ?
A titre d’exemple, prenons Guillaume Musso : les 5 auteurs les plus proches de lui sont tous des poids lourds internationaux.
- Dan Brown (6,5, ce qui est une très très courte distance !)
- JK Rowling (8,3)
- Collins Suzanne (9,3)
- Tom Clancy (10,6)
- Amélie Nothomb (10,8)
Et rien que pour vous, voici donc la recette d’un best-seller international :
Malheureusement, le recette d’un Goncourt semble plus ardue : aucune similitude des textes dans mon échantillon.
Le cas Mathias Enard
Suite à son Goncourt en 2015, Le Nouvel Observateur a comparé Mathias Enard à Honoré de Balzac dans cet article. Comparaison soulignée par son physique, comme le montre cette étonnante illustration.
Avec ce logiciel, j’affirme haut et fort, que le style de Mathias Enard se rapproche davantage de celui de Stendhal (12,9, son plus proche score) que de celui de Balzac (16,6). Ahah ! Quel plaisir que de contredire Le Nouvel Obs (sans rancune, hein ? :-))
L’affaire HP. Lovecraft
En rajoutant HP Lovecraft dans mon analyse, je m’aperçois que Marcel Proust, qui jusque là, n’avait qu’une proximité (assez logique) avec Amin Maalouf (12,0), devient « ami » de Lovecraft avec une proximité de 11,2. Étonné, je me renseigne sur le lien potentiel entre ces deux auteurs et je découvre cette citation de Proust : « Lovecraft est passionnant quand il parle de réalisme (où il place Balzac et Tourguenev au plus haut, s’en sert d’alibi à son dédain de Dickens), et de real literature (…) Il lit les deux premiers tomes de la première traduction d’À la recherche du temps perdu (Un amour de Swann, Les jeunes filles en fleurs). Et puis il dit que « personne au XXe siècle n’est capable d’éclipser ce bonhomme-là ». Ce qui me fait plaisir à plus d’un titre. »
Lovecraft était fan de Proust, mais est-ce que cela suffit à expliquer leur proximité ?
Les deux profils se distinguent par un rythme très différent, genre oblige ! 🙂
Soulignons aussi la limite de l’exercice : comparer un texte en français avec une traduction introduit forcément un biais (il faudrait vérifier que la traduction de dénature pas le texte d’origine). Par contre, une analyse plus poussée de l’oeuvre de Lovecraft, montre une hétérogénéité non négligeable.
A noter, qu’il est aussi très proche de JL Borges (11,1) :cela semble cohérent, du point de vue du registre fantastique, mais cela ne devrait être visible sur ce genre d’analyse purement syntaxique. Intéressant. Le radar montre 2 triangles emboités, Borges est le maître de Lovecraft ! 😉
Et le Cerbère blanc dans tout ça ?
En temps qu’auteur, il est très intéressant d’analyser l’évolution d’un manuscrit au fil des versions (je suis un adepte de l’écriture itérative). Voici quelques statistiques intéressantes sur mon dernier roman Le cerbère blanc.
Quelques points de mesure évoluent nettement entre la première version (2016) et le manuscrit définitif (2020). Tandis que le rythme du récit reste constant, l’oralité diminue, signe d’un travail sur l’écriture, confirmé par la chasse aux adverbes et l’ajout de points-virgules (symptomatiques de phrases plus structurées).
Sur ce tableau, nous voyons nettement la distance du premier jet avec les versions successives. Même si on reconnait l’oeuvre écrite par un même auteur, la distance double pratiquement dans le laps de temps du projet.
Bien entendu, ce logiciel m’a permis de comparer mon style aux autres auteurs contemporains ou classiques… mais là, je garde le résultat pour moi ! 😉
Quelques distances entre auteurs
Justement, un classement intéressant : voici la proximité d’auteurs entre eux (critère : une proximité < 13).
Le cas Asimov m’amuse beaucoup. Bien que ce logiciel n’analyse ni la thématique ni le fond, on retrouve Bradbury (SF), Tom Clancy et Dan Brown (Fantastique) dans son top-3.
Certains auteurs n’ont aucun collègue proche. Ce sont des OVNI. Cela se traduit par un style bien à part. C’est le cas notamment de Bukoswki, Zweig ou Houellebecq (du moins avec mon échantillon de 85 auteurs).
Autres exemples
Dans un autre article, j’analyse le roman épistolier « les liaisons dangereuses » en utilisant cet outil sur les personnages. Ont-ils tous la même voix ? le même style ?
Conclusion
Ce logiciel a été développé pendant le confinement : j’ai pris beaucoup de plaisir à l’écrire et à observer les différents résultats. Moi qui m’intéressais, en tant qu’auteur, aux structures narratives, me voici plongé dans une autre dimension toute aussi passionnante.
Je n’ai pas encore la matière, mais il serait aussi intéressant de mesurer l’influence d’un traducteur sur l’oeuvre traduite. Le Moby Dick de Giono ressemble-t-il à un autre roman de Giono ? Quelle proximité avec les autres traductions ?
Vos commentaires sont les bienvenus.
Portez-vous bien, lisez beaucoup.
Si vous avez aimé cet article
Le cas Musso
Le cas San-Antonio
Les liaisons dangereuses aux rayons X