mercredi 19 décembre 2012

1000 articles vitaux


Je suis passionné de données sur Wikipédia, mais souvent la frustration guette : l’encyclopédie a beau être menée comme un projet, elle n’a pas de planning, pas d’objectif chiffré, pas de recensement des ressources, pas d’évaluation des risques, etc. Cela n’empêche pas le projet de fonctionner, mais c’est tout de même dommage d’avoir aussi peu de statistiques.

Cela laisse la porte ouverte à des opinions personnelles qui ne reposent que sur des impressions fugitives : « la Wikipédia anglophone est plus complète et plus riche », ou bien « les allemands montrent plus de rigueur ». Il est difficile de ne pas écouter, même sans chiffres à l’appui. Certes, quelques indicateurs de qualité existent, mais j’ai du mal à me les représenter :
  • Le ratio « Articles labellisés / Nombre d’articles » est un classique. A mes yeux, il est inutile car sa valeur ne change pas : le rythme de labellisation des articles ne surpassera jamais celui des créations, d’où une convergence autour d’une valeur faible.
  • La « profondeur » des Wikipédias permet de mesurer le degré de collaboration, en calculant de manière globale la fréquence d’éditions des articles et la présence de pages dans l’espace non encyclopédique. L’indicateur est sans doute intéressant, mais je trouve le calcul peu visuel.
  • Le nombre de « pages vues » ou le « nombre de lecteurs » nous renseigne sur le succès de l’encyclopédie, mais la notion de projet est absente.
  • Le « nombre de contributeurs » n’a, par expérience, pas de lien direct avec la qualité encyclopédique des articles.

Aussi ai-je commencé une comparaison de la qualité avec la wikipédia anglophone. Celle-ci possède une liste des 1000 articles les plus importants, appelée « Vital articles ». En plus d’être pertinente à mes yeux (plus que la « List of articles every Wikipedia should have » par exemple), elle répertorie les avancements des articles listés. J’ai traduit cette liste, et ajouté les avancements des articles francophones.

Le résultat est visible en cliquant sur ce lien.

Cette liste permet de calculer un ratio de qualité globale qui ne peut qu’augmenter (en éliminant l’ « effet création d’articles »). Ensuite, il ouvre la porte à la comparaison entre les wikipédias anglophone et francophone. Enfin, nous pourrons observer avec le temps l’évolution de la qualité, et en particulier de visualiser le passage entre les avancements « ébauche », « BD », et « B », mouvement majoritaire des articles et assez peu documenté.

Enfin, avant de vous montrer les résultats, quelques précisions de méthode :
  • Je n’ai pas trouvé d’équivalent satisfaisant pour 13 des articles de la liste originelle. Aussi n’y a-t-il que 987 articles répertoriés et 13 liens rouges (temporaires sûrement).
  • La Wikipédia anglophone dispose de plus de stades d’avancements, donc j’ai établi la correspondance suivante :

  • J’ai fait confiance à l’évaluation actuelle des articles, pour ne pas y passer trop de temps.

  
Voici les données brutes des deux encyclopédies, regroupées par thème :


Du côté de la Wikipédia francophone, plusieurs thèmes sortent du lot : « Arts et culture », « Philosophie et religion », « Société et sciences sociales », « Mathématiques » ont plus de 60% d’articles en avancement E ou BD. A l’inverse, deux thèmes ont une image plus positive : les « biographies » ont 15% d’articles labellisés, et 10 % pour la « géographie ». La « santé et médecine » est le seul domaine sans le moindre label.


Ensuite, j’ai répertorié quelques sous-thèmes (de plus de 10 articles) avec des statistiques intéressantes. Quatre d’entre eux ont 60% ou plus d’articles en avancement B : Mention spéciale à l‘astronomie pour un taux à 70 % et aux biographies de leaders politiques qui labellisent 20 % de leurs articles. Les spécialités les moins bien dotées sont celles en rouge : l’économie est un parent pauvre de la Wikipédia francophone, avec 42 % d’ébauche.

Je fais un bref focus sur notre rayon littéraire, l’un des plus faibles de cette analyse. Aucun article qualifié d’une importance maximum ne dépasse l’avancement BD. Loin de généraliser à l’ensemble du portail, on peut y voir une explication de la méfiance de professeurs de lettres envers Wikipédia.


La Wikipédia anglophone possède de bien meilleurs articles dans cette liste. Ce qui saute aux yeux, c’est qu’il n’y aucune ébauche.

Trois thèmes seulement ont plus de 50 % d’articles en avancement E ou BD : « Arts et culture », « Vie quotidienne » et « Société et sciences sociales ». Je note aussi quatre thèmes qui ont plus de 50 % d’articles en avancement B. Enfin, trois thèmes sortent vraiment du lot : « Biographies », « Santé et médecine » et « Sciences » avec chacun 30 % d’articles labellisés.



Parmi les sous-thèmes de plus de 10 articles, seule la philosophie a plus de 70 % des articles en avancement E ou BD. A l’inverse, d’autres sont d’un bon niveau (« Eau » avec 70 % d’articles en avancement B par exemple) ou tout simplement exceptionnels : 40 % de labels pour les « maladies », 50 % des biographies de leaders politiques et surtout 70 % des articles d’ « astronomie ».



Deux derniers points pour conclure cet article :
  • Connaissez-vous le projet Sélection Transversale ? Au point mort depuis quelques années, il pourrait être réveillé pour héberger cette liste, et donc faciliter le travail sur ces sujets importants. De plus, l’analyse peut être complétée en intégrant le nombre de lectures, ou le nombre de contributions, par exemple avec le projet « Pages populaires ».
  • Chacun peut mettre à jour les avancements des articles. Toutefois, il faut veiller à conserver une liste strictement équivalente à celle des anglophones pour faciliter les comparaisons. Je prévois de refaire le même genre d’analyse à fin juin 2013.