Cartographie et standards d’évaluation des labos

L’analyse quantitative des données d’évaluation des laboratoires de recherche par le HCERES permet de dessiner un paysage précis de notre recherche, mais aussi des pratiques d’évaluation de cette autorité administrative indépendante qui en est chargée. Avec des résultats attendus et des grosses surprises qui interrogent sur les standards d’évaluation.

Nous avons en France un Haut Conseil pour l’Évaluation de la Recherche et de l’Enseignement Supérieur, le HCERES, autorité administrative indépendante, dont le rôle est, entre autres, d’évaluer les laboratoires de recherche publique.

Dans mon précédent billet « Évaluation, Indicateurs…« , je me suis intéressé à l’hétérogénéité des structures de recherche dans notre pays avec pour objectif d’essayer de comprendre comment l’hétérogénéité de nos structures de recherche pouvait avoir des impacts sur l’efficacité et l’équité de ce processus. Dans ce billet, mon objectif est d’utiliser les données du HCERES pour regarder un peu le paysage global de nos structures de recherche. Pour ce faire, puisqu’il n’y a pas de données synthétiques, j’ai récupéré individuellement chacun des rapports de synthèse publiés par le HCERES sur son site, et concernant les laboratoires de recherche stricto sensu. J’en ai extrait et consolidé ensuite un certain nombre de données. Et l’une d’entre elles est véritablement surprenante (teaser insoutenable…)

L’évaluation des laboratoires se déroule sur un cycle de cinq ans, avec cinq « vagues » annuelles plus ou mois régionales, appelées A, B, C, D et E. Les données publiées par le HCERES et que j’ai traitées couvrent ces cinq vagues et donc, en principe, l’ensemble du paysage de recherche publique français.

Le paysage disciplinaire

Pour les lecteurs intéressés, je détaille plus bas la « cuisine » pour récupérer et commencer à analyser les données du HCERES, ce qui n’a pas été une mince affaire. En tout, mon analyse couvre 2158 laboratoires, dans toutes les disciplines, mixtes ou non avec les organismes nationaux de recherche (CNRS, INSERM, CEA, INRA, INRIA…).

Les données que j’ai extraites dans cette première analyse sont les suivantes :

La nature de la structure – universitaire ou mixte avec les organismes nationaux
La vague d’évaluation
La langue du rapport
Le champ disciplinaire.

Ça peut paraître limité, mais vous allez voir qu’on apprend déjà des choses surprenantes juste avec ces données. La vague d’évaluation donne à la fois une information géographique et temporelle. A chaque vague correspond en effet une année différente, et en remontant dans les vagues, on peut essayer de voir si il y a des évolutions temporelles dans le processus d’évaluation (spoiler : il n’y en a pas dans la période récente)

Distribution des laboratoires par champ disciplinaire

Le HCERES utilise une nomenclature disciplinaire avec un peu moins de vingt grandes catégories réparties dans trois grands secteurs : Sciences humaines et sociales, Sciences et Techniques et Sciences de la Vie et Environnement. Le tableau suivant résume cette classification :

Secteurs disciplinaires HCERES — *Secteurs disciplinaires du HCERES*

Je me suis d’abord posé la question de combien de structures de recherche on trouve dans chaque grand secteur et combien d’entre elles sont des unités mixtes avec les grands organismes nationaux (UMR : unité mixte de recherche) vs. des unités purement universitaires (EA : équipe d’accueil et bientôt UR : unité de recherche). Le résultat est montré sur la figure suivante :

Structures de recherche par domaine — *Nombre de structures de recherche (laboratoires) par domaine*

Environ 57% de tous nos laboratoires de recherche publique sont des UMR avec les organismes nationaux (1235/2158). Mais on voit que le constat est contrasté selon les disciplines, avec seulement 37% d’unités mixtes en SHS, contre ~70% en Sciences et techniques, comme en Sciences de la Vie et environnement. Ce n’est pas vraiment une surprise, on sait que les organismes de recherche sont peu présents dans certains domaines des Humanités, des Sciences de l’éducation ou encore du Droit.

Autre observation, le secteur SHS représente plus de 37% des structures de recherche, mais seulement ~27% de nos ~82 000 enseignants-chercheurs et chercheurs permanents (source des données sur les effectifs dans le billet précédent). Ceci implique donc que, en moyenne, les structures de recherche en SHS sont plus petites que celles des deux autres secteurs.

Une analyse plus fine de la distribution du nombre de laboratoires dans chacune des sous-catégories est indiquée dans le schéma ci-dessous. La surface des secteurs et des anneaux est proportionnelle au nombre de structures.

*Répartition disciplinaire des labos en France*

Ces données constituent donc une photographie de notre paysage d’unités de recherche sur les cinq dernières années. On voit ainsi par exemple qu’il y a environ 133 laboratoires de chimie en France. Même si c’est une indication, ces données ne préjugent pas directement de la taille précise des domaines scientifiques, puisqu’on a vu dans le billet précédent qu’il existait une grande variabilité dans la taille des labos de recherche.

Quelques remarques : un laboratoire peut se revendiquer de plusieurs disciplines (c’est même assez souvent le cas). Je n’ai utilisé que la discipline indiquée en premier par le labo, considérant que c’était leur champ principal. Il peut donc y avoir quelques corrections à la marge avec les labos très interdisciplinaires. Il y a aussi des rapports d’évaluation qui ne précisent pas le domaine spécifique à l’intérieur d’un grand secteur. C’est assez fréquent en sciences humaines et sociales, où il y a pas mal de structures pour lesquelles est juste indiqué « SHS », sans autre précision (~170 labos en tout). Je ne sais pas si il s’agit d’une manifestation de la diversité interne des laboratoires SHS ou d’une forme de réticence de mes collègues de ces disciplines à se voir enfermés dans une nomenclature rigide.

Répartition par vague d’évaluation

La question suivante que j’ai voulu traiter était celle de la répartition des laboratoires dans les cinq différentes vagues d’évaluation. Le graphe suivant indique le nombre de laboratoires par grand secteur disciplinaire dans chaque vague.

*Distribution des laboratoires de recherche, par grand secteur disciplinaire et par vague d’évaluation*

Il y a une moyenne de 440 labos par vague, avec une « petite » vague B à 335 et une « grosse » vague C à 493. C’est un très gros grain géographique (je projette de faire une analyse plus fine dans un prochain billet), mais on voit quand même des effets significatifs :

Le poids global très important de l’Île-de-France dans le paysage national (vagues D et vague E)
La plus forte présence des SHS à Paris intra-muros (vague D)
Le poids important des sciences dures en Île-de-France hors Paris dans la vague E (certainement un effet « Saclay »), et aussi dans les grands pôles de la vague A (Toulouse, Montpellier, Lyon, Grenoble…)

La plupart de ces effets sont attendus, mais c’est une manifestation objective de la carte scientifique du pays.

Le caractère international de l’évaluation : une surprise…

Je me suis intéressé au caractère international de l’évaluation pratiquée par le HCERES, ce dernier revendiquant s’aligner sur les meilleurs standards dans ce domaine. Recourir à des experts étrangers est important, parce que c’est un moyen d’avoir un regard très indépendant et aussi une vision plus large leur permettant de positionner la recherche de nos laboratoires par rapport à ce qui se fait à l’international. Pour aborder cette question, j’ai utilisé un proxy assez facile à extraire des données, qui est la langue du rapport. La majorité des rapports d’évaluation est en français, mais une fraction non-négligeable est en anglais (485 sur 2158 en tout, soit un peu moins d’un quart).

Lorsque le rapport est en anglais, c’est systématiquement parce que le comité comporte un ou plusieurs experts étrangers non-francophones. Dans les comités correspondant aux rapports en français, il peut certes y avoir aussi des experts étrangers, mais en nombre en général plus limité (souvent un seul par comité) et fréquemment issus de pays francophones ou français expatriés, ce qui limite le vivier d’experts.

Dans mes préjugés initiaux, un des facteurs pouvant avoir un effet sur le caractère international du comité était la labellisation par un organisme national (CNRS, INSERM). Autrement dit, je m’attendais à trouver proportionnellement plus de rapports en anglais pour l’évaluation des UMR que pour celle des équipes purement universitaires. Et c’est en effet assez nettement le cas (presque trois fois plus) :

31 % des rapports des 1235 UMR sont en anglais
12 % des rapports des 923 EA sont en anglais

Ensuite, j’ai voulu voir comment ça se distribuait de manière disciplinaire et c’est là que j’ai eu une très grosse surprise, parce que les résultats sont incroyablement hétérogènes, comme le montre le schéma ci-dessous :

Proportion de rapports d'évaluation en anglais par grand domaine — *Proportion de rapports d’évaluation en anglais dans chaque grand domaine*

La proportion de rapports d’évaluation en anglais est très faible en SHS, mais aussi en Sciences dures

Je m’attendais à ce que le secteur SHS ait moins de rapports en anglais, parce que certaines des disciplines correspondantes sont très liées à l’usage de la langue française, par exemple en Droit ou dans les Humanités. Mais j’ai été très surpris par la faible proportion en Sciences dures, où ça suggère que les comités d’évaluation sont nettement moins internationaux qu’en Sciences du vivant.

Alors j’ai voulu en avoir le cœur net et j’ai fait un sondage sur une discipline pas trop volumineuse : j’ai regardé à la main les rapports des 60 labos de maths du pays, un par un. Sur les 60 rapports, 4 sont en anglais (soit ~6%) avec un comité international et les 56 autres sont en français. Parmi ces derniers :

La moitié (28) correspond à des comités franco-français.
Un quart (15) a un comité avec un seul « étranger », souvent un francophone ou un français expatrié.
13 ont un vrai comité international avec deux experts étrangers ou plus.

Quand on regarde de près, c’est donc un bilan plus nuancé, mais la différence reste réelle et assez nette.

J’ai enfin regardé si ça avait évolué en fonction des différentes vagues et donc en fonction des années, avec l’idée que par exemple, le HCERES aurait pu vouloir réduire son budget de missions internationales pour des raisons financières, ce qui aurait pu l’amener à vouloir diminuer le nombre d’experts internationaux dans les années récentes. On ne voit rien de tel, et les disparités décrites plus haut se voient sur toutes les vagues d’évaluation, depuis 2015-2016.

Des différences de standard d’évaluation ?

Cette observation à laquelle je ne m’attendais pas pose la question de la disparité de standards d’évaluation d’un domaine ou d’une discipline à l’autre. Je reviendrai probablement dessus plus en détail plus tard, mais il y a aussi des disparités entre disciplines à l’intérieur d’un même grand domaine. Selon mon critère indirect (rapport en anglais), l’évaluation des labos de physique (24% de rapports en anglais) est bien plus internationale que celle des labos de sciences pour l’ingénieur (aucun rapport en anglais).

Encore une fois, il faudra probablement regarder plus en détail et nuancer comme je l’ai fait plus haut avec les maths, mais ça suggère quand même que les pratiques d’évaluation sont inhomogènes et peuvent poser des problèmes d’équité et d’inégalité de niveau d’exigence scientifique. Voire parfois un véritable risque d’endogamie quand on a à la fois une discipline à petit effectif et un recours insuffisant à des experts étrangers, indépendants et extérieurs à la communauté française. Et lorsque les évaluations sont utilisées pour faire des grands arbitrages en termes de financements ou de postes, ces disparités disciplinaires peuvent avoir des conséquences très dommageables…

Je chausse pour finir ma casquette de biologiste pour remarquer que c’est dans ma discipline que les pratiques d’évaluation sont de très loin les plus vertueuses, ce qui n’a pas nécessairement été à notre avantage sur tous les plans. Notamment sur la perception que pourrait donner aux puissants qui nous gouvernent, les retours d’une évaluation plus internationale et possiblement parfois plus « sévère » de notre recherche en biologie (je sais que je vais me faire taxer de parti pris, mais après tout ce boulot, je m’autorise une petite remarque partiale…).

Il serait nécessaire que le HCERES applique des standards d’évaluation vraiment homogènes à toutes les disciplines.

La méthodologie de l’analyse

Il y a plein d’infos factuelles dans les synthèses des évaluations des unités de recherche publiées sur le site du HCERES (voir ici). Le seul souci, c’est que c’est éparpillé dans des centaines de documents PDF individuels et qu’il n’y a pas de données consolidées. Pour les reconstruire, j’ai donc été obligé de bricoler, et le boulot est pour l’instant très partiel par rapport au contenu total potentiellement extractible.

La première étape a été de moissonner le site du HCERES, pour récupérer tous ces documents d’évaluation que le Haut Conseil publie, unité de recherche par unité de recherche. Ça m’a occupé les vacances de Noël. Je ne l’ai pas fait à la main, j’ai écrit un script qui utilisait Puppeteer et Node.js, deux bibliothèques javascript permettant d’automatiser le processus. Et j’ai ainsi téléchargé les 2595 rapports synthétiques des unités de recherche disponibles sur le site du HCERES à la mi-janvier 2021 et correspondant aux cinq vagues d’évaluation A, B, C, D et E du cycle quinquennal. Ensuite, il a fallu faire un peu de ménage. Il y avait des doublons sur la vague A, entre des vieilles évaluations d’il y a cinq ans et les nouvelles de cette année. Après ce travail, il m’est resté 2158 rapports non-redondants. C’est un peu moins que ce qu’annonce le HCERES, qui parle de 2500 structures, mais je n’ai pas inclus dans mon extraction les structures de type fédératif ou les centres d’investigation clinique, seulement les labos de recherche « pur sucre ».

Ensuite, j’ai utilisé un des nombreux convertisseurs qui extraient le texte brut contenu dans un PDF, pour générer autant de fichiers .txt. Ces derniers sont directement analysables de manière plus ou moins automatisée, mais souvent un peu bordéliques, parce que les convertisseurs ne savent pas toujours gérer proprement les retours à la ligne, surtout quand on a des tableaux dans le PDF initial (et il y en a dans ceux du HCERES). Sans parler du format de leurs fichiers et de leur structure qui évolue d’une vague annuelle d’évaluation à la suivante. J’ai essayé une palanquée de ces convertisseurs, mais aucun n’est parfait.

Dernière étape, écrire des scripts pour extraire le plus possible de données de ces documents texte : expressions régulières pour nettoyer, rechercher, exporter. Et finalement consolider dans un grand tableau. Je n’ai pas encore terminé ce travail, je voudrais extraire les données concernant les effectifs, mais c’est vraiment ardu, car très inhomogène. Ce sera probablement pour un prochain billet.

Aéroergastère

Regards et opinions sur le monde de la recherche et de l'enseignement