La signature d’un auteur ?
La version 6 de mon logiciel analyse désormais 21 critères différents. Dans les articles précédents, je pensais pouvoir trouver la signature d’un auteur grâce à une combinaison linéaire de ces critères (une sorte de « hash » ou clé unique identifiant l’auteur d’un texte – à l’image d’une reconnaissance faciale qui, à partir de certains points, en déduit l’identité d’une personne). Malheureusement, cela est plus complexe que prévu.
Pour m’aider, je me suis servi d’un logiciel d’analyse statistique : Orange Data Mining (Université de Ljubljana). Il me calcule, pour l’oeuvre d’un auteur (= plusieurs romans), les critères qui ont le plus fort taux de corrélation entre eux (avec leur R respectifs : plus R est proche de 1 (ou -1) et plus les critères sont corrélés).
Rappel : en probabilités et en statistique, la corrélation entre plusieurs variables aléatoires ou statistiques est une notion de liaison qui contredit leur indépendance. Par exemple, le poids d’un livre est corrélé au nombre de pages (R>0.9). Par contre, le nombre de pages d’un livre est très faiblement corrélé au nombre de lettres du titre (R<0.01)
Initialement, je m’attendais à trouver les mêmes corrélations évidentes entre auteurs, par exemple le taux de virgules d’un texte devrait être fortement corrélé à la longueur des phrases. Mais non. Pour chaque auteur, les plus fortes corrélations sont différentes.
Pour mes romans, le plus fort coefficient de corrélation est entre le taux de mots communs et le taux de verbe au passé simple (R=-0.94).
Pour Amélie Nothomb, c’est le taux de point-virgule qui est inversement proportionnel au taux d’expressions communes (R=0.88)
Enfin, pour San Antonio, c’est le taux de parenthèses (pour 10 000 signes) qui est corrélé (R=-0.94) au taux de mots communs.
Pourquoi les auteurs ne partagent-ils pas ces duos de critères fortement corrélés ? (R>0.9). Représentent-ils la signature d’une œuvre ?
Creusons du côté des clusters
Le logiciel Orange Data Mining permet de classifier les romans dans des clusters (k-means clustering algorithm). Il propose un nombre de clusters optimal et regroupe les textes similaires dans ces « clusters ».
Par exemple, le logiciel différencie mes romans publiés chez Alma, celui publié chez Stock et mes 2 romans de genre (érotique et polar, non publiés) : soit 4 clusters qui correspondent effectivement à des styles bien différents (et je suis tout à fait à l’aise avec cette classification). Le diagramme précédent avec les clusters colorés devient :
Le cas Musso
Prenons les 13 romans de Guillaume Musso publiés entre 2001 et 2019. Sa «signature» est la corrélation négative (R=-0,91) entre le taux de points d’exclamation et le taux de pronoms relatifs et interrogatifs. Cela est assez logique : les points d’exclamation sont utilisés lorsque l’auteur a recours au dialogue, notamment pour montrer une émotion. Plus la phrase sera concise, plus l’émotion à faire passer sera ressentie par le lecteur. (« Tu ne me l’as jamais dit ! » vs « Tu ne me l’as jamais dit » cria la jeune femme qui tremblait sous l’effet de cette subite annonce ».
A l’opposé, les pronoms relatifs introduisent ce qu’on appelle « des phrases complexes », donc par essence plus longues.
Les 5 clusters trouvés par le logiciel correspondent à des regroupements d’années consécutives :
C1: 2001,
C2: 2004, 2005, 2006,
C3: 2008,
C4: 2011,2012,2013,2014,
C5: 2015,2016,2018,2019
Comme si l’auteur, changeait périodiquement quelque chose de suffisamment conséquent dans sa façon d’écrire pour que le logiciel s’en aperçoive.
Il n’est pas étonnant d’avoir plusieurs clusters pour un auteur (comme dans mon cas pour les maisons d’éditions ou les genres) mais ce qui est remarquable ici est la parfaite cohérence chronologique (alors que l’auteur revendique un même style/genre et la même maison d’édition depuis son deuxième roman).
Son premier roman « Skidamarink » a un style différent, comme le montre le cluster dédié. Par contre, il est positionné tout près des œuvres 2018 et 2019. (L’auteur semble avoir progressivement « descendu » cette droite de régression dès 2001 pour la remonter à partir de 2013).
Coïncidence à cette proximité, en octobre 2020, sa maison d’édition décide de republier ce premier roman. Et si cette courbe montrait que c’était finalement l’année où il fallait le faire, dans la « parfaite continuité statistique » des 2 précédents ?
Si vous avez aimé cet article:
Analyse de romans
Les liaisons dangereuses aux rayons X
Le cas San-Antonio
Mais alors, votre roman érotique, il est publié ou pas (texte et illustration ne sont pas ras-corps)?
Et où se les procurer si l’on est fan?
Et votre Book Analyser trouve-t-il une corrélation entre Valentin et Guillaume?
oui, il est publié, mais le concept de pseudonyme signifie que le nom d’auteur est anonyme ! :-D. Blague à part, vous voyez bien que le style est fort différent. Vous êtes fan de mes romans, pas forcément de ce style là… #PasBonCommercial
J’attendrai donc le joli mois de mai, pas le choix pour moi (à l’inverse de Lorenzo donc).
Pingback: Analyse de romans | Le blog de Pierre Raufast