L’objectif
Imaginez un logiciel qui analyse un roman, non pas sur le fond, mais exclusivement sur la forme. Avec un tel outil:
- Verrait-on une différence entre la littérature de « genre » et la « blanche » ?
- Le jury Goncourt aurait-il pu déceler Romain Gary derrière Emile Ajar ?
- Il y a-t-il un « pattern » du succès commercial ? Lequel ?
- Les oeuvres d’un auteur sont-elles homogènes tout au long de sa carrière ?
- Il y a-t-il des ovnis littéraires, dont le style est éloigné de tous leurs confrères ?
La réponse est oui. Voyons comment.
L’algorithme
Points de mesure et distance
J’ai développé un logiciel : certains parleront d’IA (Intelligence Artificielle), mais nous n’en sommes pas encore là. Je préfère parler d’analyses statistiques. L’algorithme mesure 14 critères sur 380 ebooks. Je vous en donne 7 : le taux de virgules, de dialogues, de points d’exclamation, d’adverbes, de mots longs, de mots grossiers, le nombre de mots par phrase.
Une fois ces critères normalisés, on peut calculer une « distance » entre chaque auteur. Cela traduit une forme de proximité dans le style. Par exemple, Balzac est proche de Stendhal (8,7), mais éloigné de Bukowski (48). L’échelle est la suivante.
Regroupement en 4 axes
Ces 14 critères sont regroupés en 4 thématiques
- Le rythme du texte (longueur des phrases)
- L’oralité (la présence de dialogue, de mots grossiers, de !, …, ?)
- La facilité (présence de verbes simples conjugués au présent, nombreux adverbes, des expressions « clichés », par exemple « blanc comme neige », …)
- La complexité (mots longs ou phrase longue articulée par des conjonctions de coordination)
On obtient des diagrammes radar de ce style, bien pratiques pour comparer 2 auteurs.
Exemple évident : nous savons tous que San Antonio n’a pas du tout le même style que Marcel Proust. Une plus grande oralité, un rythme plus rapide, une grande facilité. Mais cet exemple outrancier est important pour introduire une notion importante : cette méthode n’est pas destinée à juger de la qualité d’une oeuvre. L’analyse du style ne préjuge pas de la qualité littéraire d’un roman ou de sa puissance narrative. Avec cette méthode, Marcel Pagnol a un score important en oralité et Albert Cohen, en facilité. A titre d’illustration, voici la comparaison entre Jean Giono et Fred Vargas : deux genres différents, deux regards différents sur le monde, et pourtant, des styles très comparables selon ce logiciel.
Que peut-on faire de cet outil ?
1. Littérature de genre
Commençons par enfoncer des portes ouvertes. Qu’est-ce-qui fait la différence entre la littérature de genre (ici le polar) et la littérature « blanche » contemporaine ? Sans surprise, l’oralité et le rythme sont deux critères permettant de ségréguer très nettement nos deux échantillons représentatifs.
Notons au passage que les critères Oralité et Rythme sont bien corrélés.
2. Évolution tout au long d’une Oeuvre
Amusons-nous à étudier la proximité des romans d’un même auteur tout au long de sa carrière.
Victor Hugo : Ses oeuvres sont très proches ; même les jaunes sont proches de la limite du vert.
Bernard Werber, l’analyse chronologique montre une belle homogénéité, sauf pour son miroir de Cassandre, qui se distingue légèrement de ses premiers livres.
Contrairement à l’idée reçue que « tous les Amélie Nothomb se ressemblent », la matrice ci-dessous montre une certaine diversité dans le style que cette romancière emploie. C’est une des rares à franchir la barre du orange – sans emprunter un pseudonyme.
Une analyse plus exhaustive de la proximité des 88 romans de Balzac, montre aussi une prédominance de verts (81%) et environ 19% de jaunes. Un seul orange, Petites misères de la vie conjugale : texte écrit entre 1830 et 1846 et publié par chapitre dans plusieurs revues, ce qui peut justifier un style disparate.
Une analyse de 15 textes de Patrick Modiano montre que ses deux premiers romans (La place de l’étoile et La ronde de nuit) se démarquent du reste de sa production.
Pour illustrer, voici l’empreinte radar de ses deux premiers romans et de Rue des boutiques obscures qui lui valut le Goncourt dix ans plus tard en 1978.
Détection de pseudonymes ?
Mais alors, serait-il possible de détecter parmi les textes d’un auteur, lesquels il n’aurait pas rédigés (#JeSache), ou à l’inverse, un même romancier qui se cache derrière deux pseudonymes ?
On pense évidemment à Romain Gary qui a gagné deux fois le prix Goncourt. Une première fois en 1956 pour Les racines du ciel, une seconde fois en 1975 pour La vie devant soi signé Emile Ajar.
Rendons justice au jury : le logiciel confirme la distance importante entre ces deux textes et la difficulté de démasquer le farceur !
Moins réussie, la tentative de Boris Vian d’écrire sous la plume de Vernon Sullivan. Avec ce logiciel, la supercherie aurait été facilement dévoilée.
Une recette du succès ?
En analysant bien tous les romans et en corrélant avec leur succès commercial, pourrait-on, avec ce logiciel, trouver « la recette du succès commercial » ? Les auteurs qui vendent le plus ont-ils des points communs ?
A titre d’exemple, prenons Guillaume Musso : les 5 auteurs les plus proches de lui sont tous des poids lourds internationaux.
- Dan Brown (6,5, ce qui est une très très courte distance !)
- JK Rowling (8,3)
- Collins Suzanne (9,3)
- Tom Clancy (10,6)
- Amélie Nothomb (10,8)
Et rien que pour vous, voici donc la recette d’un best-seller international :
Malheureusement, le recette d’un Goncourt semble plus ardue : aucune similitude des textes dans mon échantillon.
Le cas Mathias Enard
Suite à son Goncourt en 2015, Le Nouvel Observateur a comparé Mathias Enard à Honoré de Balzac dans cet article. Comparaison soulignée par son physique, comme le montre cette étonnante illustration.
Avec ce logiciel, j’affirme haut et fort, que le style de Mathias Enard se rapproche davantage de celui de Stendhal (12,9, son plus proche score) que de celui de Balzac (16,6). Ahah ! Quel plaisir que de contredire Le Nouvel Obs (sans rancune, hein ? :-))
L’affaire HP. Lovecraft
En rajoutant HP Lovecraft dans mon analyse, je m’aperçois que Marcel Proust, qui jusque là, n’avait qu’une proximité (assez logique) avec Amin Maalouf (12,0), devient « ami » de Lovecraft avec une proximité de 11,2. Étonné, je me renseigne sur le lien potentiel entre ces deux auteurs et je découvre cette citation de Proust : « Lovecraft est passionnant quand il parle de réalisme (où il place Balzac et Tourguenev au plus haut, s’en sert d’alibi à son dédain de Dickens), et de real literature (…) Il lit les deux premiers tomes de la première traduction d’À la recherche du temps perdu (Un amour de Swann, Les jeunes filles en fleurs). Et puis il dit que « personne au XXe siècle n’est capable d’éclipser ce bonhomme-là ». Ce qui me fait plaisir à plus d’un titre. »
Lovecraft était fan de Proust, mais est-ce que cela suffit à expliquer leur proximité ?
Les deux profils se distinguent par un rythme très différent, genre oblige ! 🙂
Soulignons aussi la limite de l’exercice : comparer un texte en français avec une traduction introduit forcément un biais (il faudrait vérifier que la traduction de dénature pas le texte d’origine). Par contre, une analyse plus poussée de l’oeuvre de Lovecraft, montre une hétérogénéité non négligeable.
A noter, qu’il est aussi très proche de JL Borges (11,1) :cela semble cohérent, du point de vue du registre fantastique, mais cela ne devrait être visible sur ce genre d’analyse purement syntaxique. Intéressant. Le radar montre 2 triangles emboités, Borges est le maître de Lovecraft ! 😉
Et le Cerbère blanc dans tout ça ?
En temps qu’auteur, il est très intéressant d’analyser l’évolution d’un manuscrit au fil des versions (je suis un adepte de l’écriture itérative). Voici quelques statistiques intéressantes sur mon dernier roman Le cerbère blanc.
Quelques points de mesure évoluent nettement entre la première version (2016) et le manuscrit définitif (2020). Tandis que le rythme du récit reste constant, l’oralité diminue, signe d’un travail sur l’écriture, confirmé par la chasse aux adverbes et l’ajout de points-virgules (symptomatiques de phrases plus structurées).
Sur ce tableau, nous voyons nettement la distance du premier jet avec les versions successives. Même si on reconnait l’oeuvre écrite par un même auteur, la distance double pratiquement dans le laps de temps du projet.
Bien entendu, ce logiciel m’a permis de comparer mon style aux autres auteurs contemporains ou classiques… mais là, je garde le résultat pour moi ! 😉
Quelques distances entre auteurs
Justement, un classement intéressant : voici la proximité d’auteurs entre eux (critère : une proximité < 13).
Le cas Asimov m’amuse beaucoup. Bien que ce logiciel n’analyse ni la thématique ni le fond, on retrouve Bradbury (SF), Tom Clancy et Dan Brown (Fantastique) dans son top-3.
Certains auteurs n’ont aucun collègue proche. Ce sont des OVNI. Cela se traduit par un style bien à part. C’est le cas notamment de Bukoswki, Zweig ou Houellebecq (du moins avec mon échantillon de 85 auteurs).
Autres exemples
Dans un autre article, j’analyse le roman épistolier « les liaisons dangereuses » en utilisant cet outil sur les personnages. Ont-ils tous la même voix ? le même style ?
Conclusion
Ce logiciel a été développé pendant le confinement : j’ai pris beaucoup de plaisir à l’écrire et à observer les différents résultats. Moi qui m’intéressais, en tant qu’auteur, aux structures narratives, me voici plongé dans une autre dimension toute aussi passionnante.
Je n’ai pas encore la matière, mais il serait aussi intéressant de mesurer l’influence d’un traducteur sur l’oeuvre traduite. Le Moby Dick de Giono ressemble-t-il à un autre roman de Giono ? Quelle proximité avec les autres traductions ?
Vos commentaires sont les bienvenus.
Portez-vous bien, lisez beaucoup.
Si vous avez aimé cet article
Le cas Musso
Le cas San-Antonio
Les liaisons dangereuses aux rayons X
Merci pour cette étude. Dommage, il ne semble pas, qu’on peut se fier au critère de la proximité pour savoir quel seront les auteurs qui vont nous plaire. Il faudra laisser faire la magie (ou au contraire les algorythmes de vente).
Vous avez raison… et heureusement ! Cet algo fait abstraction du thème, de l’ambiance, de l’univers d’un auteur…
Mon commentaire ne sera pas très constructif, mais… j’adore !! 😉
Bon confinement.
C’est passionnant, félicitations ! Je me demandais, est-ce qu’on peut faire des observations par pays ? Y a-t-il un « style français », un « style américain »… ?
le problème de la traduction n’est pas négligeable. A supposer que le traducteur ne rajoute pas son grain de sel. J’ai surtout en tête la version de Moby Dick de Giono qui change quand même le texte. Mais je comprends ta question. je vais voir si j’ai des romans américains en stock…
Ah oui, il faudrait pouvoir étudier la VO !
mais cela demande des compétences (en anglais, par ex.) que je n’ai pas 😦
Ah flûte !
Félicitations pour ce travail. Parmi d’autres questions, Je suis curieux de savoir comment sont construits les indicateurs comme « Facilité » : est-ce une simplicité syntaxique et faiblesse de vocabulaire.
Les indicateurs ne sont-ils pas sensibles à la longueur du texte. Proust est « complexe » aussi parce qu’il est long.
Je suis moins fan des comparaisons avec les ouvrages étrangers traduits.
Oui, la longueur est prise en compte. Les taux sont tous rapportés à la longueur du texte (par exemple : nombre de point-virgule par 10 000 caractères).
La facilité inclut 3 critères : le taux d’adverbe, le taux de verbes courants, conjugués au présent et la présence de 150 expressions clichées (« gai comme un pinson », « blanc comme un cachet d’aspirine », …).
Tout cela est bien entendu discutable, mais si la mesure est la même pour tous, les distances entre auteur représenteront toujours quelque chose. A nous de l’interpréter ! 😉
J’adore ce genre d’analyse.
Une question cependant : vu les critères de base, est-il pertinent de comparer des auteurs de « siècles différents » ? Certains des critères comparatifs ont énormément évolué au fil du temps. Je pense entre autres à la ponctuation (une vraie sinécure, de nos jours!), et notamment à l’usage du point-virgule qui figure au champs d’honneur aujourd’hui, a évolué, à la conjugaison (passé simple en voie de disparition, plus que parfait et passé antérieur partis avec l’eau du bain) ou encore du vocabulaire, avec tout un tas de termes passés à la trappe du temps,et autant nouvellement arrivés.
Du coup, la comparaison me paraît difficile, non ?
Il est vrai que le style a considérablement évolué. Mais justement, il est intéressant de montrer cela, et de vérifier si quelques contemporains écrivent « à la mode du XIXe ». Encore une fois, il ne s’agit pas de metttre une « note » (bien/pas bien) mais de voir les connexions.
Le logiciel peut aussi tourner sur un sous-ensemble de livres aussi…
bravo pou l’originalité de l’approche, bonjour, je développe en ce moment un outil qui permettait de visualiser graphiquement vos résultats au delà des graphs en radar qui illustrent votre article, je le teste sur des jeux de données très différents, seriez-vous intéressé pour prolonger votre analyse avec cet outil?.
si vous avez la possibilité de représenter graphiquement la distance de n auteurs (sachant que les relations ne sont pas transitives (ex: A est à 20 de B, B est à 5 de C, mais C est à 120 de A). merci !
J ai beaucoup apprécié votre article !
J ai 2 questions :
1) Pourquoi le nombre d adverbes utilisés augmente la ‘note’ de facilité ? J aurais pense le contraire
2) si j’ai bien compris la ‘note globale’ utilisée pour comparer la distance entre 2 ouvrages est une moyenne pondérée des 4 critères.
N y a t il pas un risque que pour l une des notes, une fort poids d’un des 4 critères vienne compenser la faiblesse d un autre, alors que pour la 2eme note tous les 4 critères ont un poids équivalent. Ainsi les 2 oeuvres seront considérées comme proches alors que leurs ‘radars’ sont complètement différents ?
Bravo encore ! Je serais intéressée par les suites de cette étude.
Merci beaucoup !
Espérons que nos futurs prix littéraires ne seront pas jugés par ce moyen, ou tout au moins pas les livres écrits par des vraies personnes. (Il y a tellement de livres sur le marché écrits par des robots ! 😉
Merci pour vos questions pertinentes.
1. On dit souvent qu’un adverbe (-ent) « alourdit » une phrase. C’est comme une cymbale dans une phrase musicale. Point trop n’en faut. Je vous laisse chercher sur Internet, il y a plein de sites qui parlent de cela.
2. Non, la distance est calculée sur les 14 critères. Dist = Somme( valeur_absolue ( Note(i)(A) – Note(i)(B))/EcartMax(i))
Avec EcartMax(i) = l’écart maximal sur le note i entre tous les écrivains.
Ainsi, toutes les 14 valeurs ont le même poids dans la distance, et ne peuvent se compenser, puisque l’on prend la valeur absolue.
Les 4 notes sont justes un « zoom » et se calculent en additionnant certaines des 14 mesures.
Passionnant ! Je serais très curieux de creuser le rapport ventes/profil par genre
oh, nous rentrerions alors dans des débats subjectifs et supposés sur le goût « des lecteurs ». Je ne m’y aventurerai pas 😉
Bonjoir,
avez-vous fait tout ceci avec NLTK ? Le code source est-il accessible quelque part ?
bonjour, non j’ai tout codé en python. J’aime bien comprendre ce que je code, et les 14 critères ci-dessus ne nécessitent pas une analyse trop poussée ou des algos compliqués.
Pingback: Les liaisons dangereuses aux rayons X | Le blog de Pierre Raufast