Pause estivale, avenir transatlantique et loi de Zipf

Bonjour à tous ! Une fois n’est pas coutume, je ne vais pas (trop) parler de sciences, mais vous dire quelques mots sur l’avenir de ce blog !

Tout d’abord, c’est bientôt pour moi les vacances ! Ce blog sera un peu en veilleuse pendant le mois d’août, mais j’ai décidé d’en profiter pour republier quelques vieux billets, qui je l’espère auront l’air nouveau pour certains d’entre vous !

Ensuite, à partir du mois de septembre je reprendrai une activité normale, mais avec un grand changement personnel entre temps puisque je quitte Paris et pars m’installer à Boston à partir de la rentrée. Mais ça ne m’empêchera pas de continuer à bloguer, en français bien-sûr !

Enfin je profite de presque deux ans d’existence pour faire un petit bilan statistique. Ce billet sera le 100ème ! Et pour suivre un récent billet de Tom Roud sur la loi de distribution du nombre de vues de ses billets, j’ai décidé de faire le même exercice.

Voici la règle : j’ai relevé pour chacun des 100 billets le nombre de pages vues, et j’ai classé le tout.

Tout d’abord la page d’accueil a été vue environ 63 000 fois. Attention on parle bien de « page vue », et pas de « visiteur unique » et encore moins de « lecteur ». Si vous venez et que vous rafraichissez 10 fois la page sans rien lire, ça va compter pour 10 !

Si on passe aux billets, mon article le plus populaire est celui sur le boson de Higgs, qui a notamment reçu beaucoup de visites à la suite de l’annonce récente des équipes du CERN  : au total près de 13 000 vues. Vient ensuite l’article sur le moteur homopolaire avec 5 718 vues, etc.

Si on classe chaque article en fonction du nombre de pages vues, on peut lui attribuer un rang. L’article sur le Higgs aura le rang 1, le moteur homopolaire aura le rang 2, etc. On peut ensuite faire un graphique : nombre de vues en fonction du rang de classement. Voici ce que ça donne :

La courbe est assez amusante : elle semble assez régulière, avec quand même quelques sauts que je ne sais pas expliquer ! Une autre manière de visualiser ces données, c’est de les représenter en échelle log/log, voici ce que ça donne :

J’ai ajouté sur ce graphe une droite. Quand on regarde des graphes log/log, on adore tirer des droites car cela correspond à des lois de puissance. Dans ce cas, la droite a un coefficient -1/2, donc la loi de puissance en « -1/2 » signifie que le nombre de vues d’un billet est en gros proportionnel à 1/\sqrt{n} où n est son rang dans le classement.

Si le billet le plus vu l’a été environ X fois. Le 10ème billet le plus vu l’a été environ X/\sqrt{10} fois, et le 70ème billet a été vu environ X/\sqrt{70}. (Dans mon cas ça marche mieux avec X=14000).

De manière amusante, Tom Roud nous explique qu’il s’attendait à une loi de puissance en 1/n (appelée loi de Zipf), mais qu’il a trouvé une loi qui ressemble plus à du -1/2. En lisant son billet j’ai fait le calcul pour mon blog, et j’ai trouvé le même coefficient -1/2 ! Je n’ai pas encore d’hypothèse quant à une éventuelle universalité de la loi en puissance -1/2 !

Pour ceux qui veulent pousser plus loin l’analyse, vous pouvez noter plein de biais dans ce calcul : déjà je ne traite « que » 100 billets, soit 2 décades. Un peu court pour faire une loi de puissance. Ensuite mon fit linéaire est loin d’être parfait, donc pas de conclusions hâtive. Enfin il est probable que la dynamique des blogs obéisse à quelque chose qui nous éloigne des lois de puissance.

En effet en régime de croisière (je pense que c’est mon cas), chaque nouveau billet reçoit un nombre de vues à peu près constant, et qui correspond en gros aux lecteurs habitués du blog, que j’évalue à quelque chose comme 1000 à l’heure actuelle. Si chaque article reçoit une dotation de base de 1000 vues, les stats ne peuvent pas obéir à une loi de puissance.

Ensuite, tout ce qui dépasse au-dessus de 1000 peut être vu comme la notoriété « supplémentaire », dont on constate qu’elle vient soit du fait que les articles sont repris sur des fils de réseaux sociaux, parfois cités dans des forums, d’autres blogs, et même une fois ou deux dans des articles sur les sites de presse. J’ai noté aussi que certains articles attiraient de nombreuses vues en provenance des moteurs de recherche, c’est particulièrement vrai pour les recherches d’images. Peut être que c’est cette notoriété supplémentaire qui doit suivre une loi de puissance (en éliminant les billets les plus faibles qui correspondent aux débuts de ce blog…tiens c’est d’ailleurs ceux-là que je vais republier cet été !)

6 réflexions sur “Pause estivale, avenir transatlantique et loi de Zipf

  1. Et si on refait la même mais en tenant compte de l’âge de chaque article, ie. en comptant le nombre de vues sur une fenêtre glissante (N mois par exemple), ça marche toujours ?

  2. Pingback: Pause estivale, avenir transatlantique et loi de Zipf | C@fé des Sciences | Scoop.it

  3. Bien rigolo 🙂
    J’avais exclu la home-page de mon décompte, car c’est une page un peu spéciale qui draîne « mécaniquement » beaucoup de vues. Si tu la retires, ton fit est-il toujours aussi bon avec -1/2 ?

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s