Pourquoi Moby Dick est un livre exceptionnel (et autres enseignements de la littérature numérique…)

moby-dick-rockwell-kent-illusLe livre Moby Dick, publié par Hermann Melville en 1851, ne connut semble-t-il qu’un succès modeste lors de sa première parution. Ce n’est qu’après la Première Guerre mondiale – et plus de 20 ans après la mort de Melville – que le livre fut finalement acclamé par le public et la critique.

Moby Dick fait partie aujourd’hui des œuvres majeures de la littérature anglo-saxonne, et est considéré comme un livre unique, à la langue et au style bien particulier. L’alliance de la numérisation massive des livres et des techniques d’analyse de données permet aujourd’hui de comprendre pourquoi.

La densité de vocabulaire

C’est une évidence, tous les livres ne contiennent pas la même quantité de vocabulaire : on se doute bien qu’il y a plus de mots différents dans Les Misérables et que dans Tchoupi va sur le pot. Et pourtant jusqu’à une époque récente, il était assez difficile de quantifier précisément la richesse de vocabulaire d’une oeuvre. Aujourd’hui, rien de plus simple avec la numérisation des livres !

C’est ce qu’a voulu calculer le chercheur/artiste Zack Booth Simpson. Pour cela il s’est servit des livres numérisés du Projet Gutenberg et a compté pour chacun d’eux le nombre total de mots, et le nombre de mots différents, c’est-à-dire la taille de son vocabulaire. Parmi les livres faisant partie de l’échantillon (et en excluant les dictionnaires), le plus riche est Histoire de la décadence et de la chute de l’Empire romain, publié par l’historien Edward Gibbon à la fin du XVIIIème siècle, avec 43 113 mots de vocabulaire différents !

Toutefois il y a un biais : le livre de Gibbon comporte 6 volumes et plus d’un million et demi de mots ! Pour avoir une mesure plus pertinente, il faut diviser par le nombre total de mots : on a ainsi une mesure de la densité de vocabulaire. Et là, on trouve que le livre le plus dense est … Moby Dick ! Avec 17 227 mots différents pour un total de 211 763, cela signifie que Melville introduit un nouveau mot quasiment à chaque ligne ! Zack Booth Simpson précise d’ailleurs sur sa page que c’est la lecture de Moby Dick qui lui a donné l’envie de faire cette analyse. Ci-dessous un petit graphique que j’ai fait à partir des données publiées sur sa page.

densité_vocabulaire

On peut aussi regarder à l’autre bout de l’échelle, et chercher le livre le moins dense, qui s’avère être la Bible : 12 867 mots de vocabulaire pour 790 126 mots au total, soit une densité 5 fois plus faible que Moby Dick.

Une carte de l’univers des livres

melville_clusterPlus récemment, le linguiste Matthew Jockers a porté l’analyse beaucoup plus loin. En partant d’une base de données de 3600 livres numérisés, il a pour chaque livre calculé près de 500 caractéristiques différentes basées sur le vocabulaire, mais aussi la ponctuation, les thèmes traités, etc. L’ensemble de ces caractéristiques définissent des coordonnées pour les livres, et on peut alors calculer la distance entre 2 livres dans cet immense espace.

L’image ci-contre montre une représentation de cette carte des ouvrages, dans laquelle deux points sont d’autant plus proches que les livres se ressemblent. Le petit agrégat isolé dans le coin supérieur gauche représente les œuvres de Melville : des livres qui se ressemblent, mais ne ressemblent à aucun autre !

En utilisant le même jeu de données (qui, précisons-le, ne comporte que des livres du XVIIIe et XIXe), Jockers a montré qu’on pouvait assez facilement deviner si un livre avait été écrit par un homme ou une femme : les livres d’hommes ont tendance a être bien séparés de ceux des femmes sur la carte.

Enfin il a également étudié les relations d’influence (représentées par les lignes sur son diagramme), et conclut que les deux auteurs les plus influents et les plus originaux étaient Walter Scott (qui a écrit entre autres Ivanhoe) et Jane Austen (auteur d’Orgueil et préjugés).

Mots rares et mots fréquents

Pour aller plus loin qu’un simple comptage, quand on analyse le vocabulaire d’un livre, on peut se demander quels sont les mots qui reviennent souvent. Ca n’est pas forcément passionnant car on va trouver inévitablement des mots comme "le", "et" ou "il". Ce qui est plus intéressant, c’est de se demander ceux qui reviennent anormalement souvent par rapport à leur fréquence habituelle dans le langage. C’est ce qu’a fait Zach Booth Simpson : dans le cas de Moby Dick, il a trouvé que les mots anormalement fréquents étaient whale, harpooneer et sperm (pour ceux qui s’imaginent qu’il y a du porno dans Moby Dick, sachez que "cachalot" se dit "sperm whale" en anglais).

Pour la Bible, les mots anormalement fréquents sont lord, israel, shall, god, moses, jesus, david, offering, tabernacle. Pour le Manifeste du Parti communiste de Marx et Engels, il s’agit de bourgeois, proletariat, communists. Bon, vous allez me dire : rien de bien étonnant dans tout ça !

Ce qui est plus intriguant : les mots anormalement rares. Ce sont des mots qui apparaissent avec une fréquence trop faible dans un livre, par rapport à sa fréquence habituelle dans les autres livres. Pour Moby Dick, on a fortune, happiness, smiled, angry, enemies, pour la Bible girl, boy, school, success, condition, listen, princess, et pour le Manifeste said, love, why, heart, mother, poor, felt. Amusant, non ? La liste plus complète sur la page de Zach Booth Simpson. Son analyse est assez ancienne, je me demande si on peut en faire une version mise à jour avec des oeuvres plus récentes ! En attendant, je pense que je vais abandonner l’idée de lire Moby Dick en version originale…

Pour aller plus loin…

Si vous voulez aller plus loin, commencez par aller voir les sublimes dessins de Paul Lasaine sur Moby Dick. Il raconte sur sa page que Dreamworks a un temps envisagé d’en faire un film d’animation, et qu’il a préparé ces dessins à cette fin. D’habitude je suis peu regardant quand j’ai besoin d’images pour mes billets, mais là c’est trop beau et le respect dû à l’artiste m’interdit un brutal copier/coller.

Moby_Dick_ZipfEnsuite concernant le travail de Matthew Jockers, j’aimerai bien pouvoir creuser, mais malheureusement c’est pour l’instant impossible : il semble que plutôt que de passer par le processus habituel de publication dans des revues scientifiques, Jockers ait choisi de présenter ses analyses d’abord dans la presse grand public (ici pour NBC) pour annoncer un livre à paraître en 2013 et intitulé Macroanalysis: Digital Methods and Literary History. J’ai tendance à être méfiant avec ce genre de procédé pour faire connaître des travaux scientifiques !

Enfin pour ceux qui se poseraient la question, oui Moby Dick suit bien la loi de Zipf ! (ci-contre). Quant à la loi qui relie la taille du vocabulaire à la taille totale du texte, elle est connue empiriquement sous le nom de loi de Heaps, et s’exprime comme V = k n^{\beta} où V est la taille du vocabulaire, n la taille du texte, k est un coefficient qui vaut typiquement entre 10 et 100, et l’exposant \beta est proche de 1/2.

Pour les vraiment motivés : analyse de données linguistiques avec R.

La page de Zach Booth Simpson est assez étonnante : il s’agit d’un programmeur de jeux vidéos, passé à l’art et à la science. Un des rares cas de gens qui finissent par publier dans les revues scientifiques en arrivant de l’extérieur du sérail !

About these ads

21 réponses à Pourquoi Moby Dick est un livre exceptionnel (et autres enseignements de la littérature numérique…)

  1. [...] Le livre Moby Dick, publié par Hermann Melville en 1851, ne connut semble-t-il qu’un succès modeste lors de sa première parution.  [...]

  2. Xochipilli dit :

    Passionnant! Décidément l’analyse quantitative de la littérature est un sujet fécond…

  3. Sirtin dit :

    C’est bien joli tout ça mais en tant que lecteur, je m’interroge sur la valeur des ces études ainsi que sur leur portée scientifique…

    • David dit :

      En tant que lecteur, je pense qu’on s’en fout :-)
      Ce que je veux dire, c’est que cette analyse est intéressante mais qu’en aucun cas il ne faut en conclure que tel livre est "meilleur" que tel autre. De même qu’il y a des chansons que j’adore qui n’ont que 3 accords…

  4. [...] Le livre Moby Dick, publié par Hermann Melville en 1851, ne connut semble-t-il qu'un succès modeste lors de sa première parution. Ce n'est qu'après la Première Guerre mondiale – et plus de 20 ans a…  [...]

  5. Gael dit :

    Le lien de l’analyse de données linguistiques avec R en toute fin de l’article est mort.
    Pouvez-vous remédier à ce problème ? Merci !

  6. [...] Le livre Moby Dick, publié par Hermann Melville en 1851, ne connut semble-t-il qu'un succès modeste lors de sa première parution. Ce n'est qu'après la Première Guerre mondiale – et plus de 20 ans a…  [...]

  7. Byby dit :

    Si ce n’est pas indiscret, comment tu as fait le premier graphique ? J’aime bien son style ‘handwritten’ sans l’etre vraiment. J’imagine du Python derriere, non ?

    • David dit :

      Eh eh, me voici obligé de révéler mes petits secrets :-)
      En fait c’est fait avec R (avec pas mal d’options customisées), et ensuite j’édite en Inkscape.

  8. [...] Le livre Moby Dick, publié par Hermann Melville en 1851, ne connut semble-t-il qu'un succès modeste lors de sa première parution. Ce n'est qu'après la Première Guerre mondiale – et plus de 20 ans a…  [...]

  9. [...] Si vous êtes féru de statistiques et de littérature, un article intéressant sur l’analyse de corpus ici. [...]

  10. quentin dit :

    Voila un article bien amusant et je vous en remercie, même si les analyse me paraissent un peu trop simpliste.
    Je me souviens en particulier que ce genre d’analyse avaient fait dire à des scientifiques que certaines pièces de Molière avaient été écrite par Racine (ou peut être était ce Corneille). A-t-on put conforter cette hypothèse ou n’était-ce que le fait du simplisme du modèle?

  11. [...] en Pourquoi Moby Dick est un livre exceptionnel (et autres enseignements de la littérature numérique…, Science Étonnante, 4 de febrero de [...]

  12. [...] Le livre Moby Dick, publié par Hermann Melville en 1851, ne connut semble-t-il qu'un succès modeste lors de sa première parution. Ce n'est qu'après la Première Guerre mondiale – et plus de 20 ans a…  [...]

  13. […] en Pourquoi Moby Dick est un livre exceptionnel (et autres enseignements de la littérature numérique…, Science Étonnante, 4 de febrero de […]

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

Suivre

Recevez les nouvelles publications par mail.

Joignez-vous à 3  976 followers

%d bloggers like this: