Vignette 1Texte de l'intervention du 3 juin 2014 aux Journées d’Etudes sur l’Enseignement de la Philosophie (Aix-en-Provence)

Le contexte est celui d’une évaluation sommative dans le cadre des examens scolaires. Il faudrait en dire beaucoup plus sur la véritable évaluation, la formative, qui doit être mise au service des apprentissages et ne pas moraliser les erreurs, mais les penser plutôt comme des obstacles épistémologiques. L’évaluation sommative, elle, se situe post-eventum, après l’action et vise (la cible) des acquisitions de la formation : elle est terminale et certificative. Le professeur y devient examinateur. Dans le cadre sommatif, il y a une épreuve qui est organisée et des outils mis en œuvre pour fonder un jugement d’admission ou d’ajournement. Le bref exposé qui suit tournera autour de trois idées et de deux préconisations à propos de l’échelle des notes :

1. L’évaluation est un jugement de valeur, pas une mesure objective.

2. L’idée générale est que l’évaluation ne doit pas rester isolée ou spontanée : elle doit être instituée. C’est un acte social dont les normes sont à produire dans un contexte de concertation.

3. La note est une notation : ce n’est pas une simple marque, mais un signe pour les autres. Un jugement institutionnel : entre intuition et régulation, un équilibre difficile à trouver, une implication à préciser, un engagement qu’il faut penser.

Première préconisation (négative) : refuser toute réification. L’évaluation n’est pas une mesure ; mais elle n’est pas non plus indifférente à l’objet. Le jugement est hypothétique, mais c’est un jugement. Il convient de refuser l’ontologie objectiviste de la note vraie. Au lieu de mesurer (rapport dimensions-correcteur instrument), il faut apprécier par référence à une échelle.

Deuxième préconisation (positive) : construire un consensus. 1) En bâtissant un sens commun (refus de l’allant de soi) ; 2) substituer des notes justes à des notes vraies ; 3) créer une pertinence dans une procédure équitable.

Conclusion : l’évaluation n’est ni une notation mécanique ni l’exercice une souveraineté solitaire.

L’usage de l’échelle des notes

L’utilisation de toute l’échelle des notes, des 21 degrés allant de 0 à 20 est d’abord une recommandation de bon sens pour toute discipline qui défend son existence dans un ensemble de savoirs, où elle doit s’efforcer de demeurer ce qu’elle est sans disparaître du champ. Hors, un mauvais usage de l’échelle est une assurance de hors-champ pour la philosophie, pour des raisons remarquées il y a déjà très longtemps par Piéron et ses collaborateurs.

L’utilisation d’une partie restreinte de l’échelle, quelle qu’elle soit, correspond à une faiblesse de la dispersion évaluative ou écart-type : celui-ci varie de 0 à 5, de la concentration totale à la dispersion la plus générale (autant de notes par échelon). Comme la philosophie n’existe pas seule mais fait partie d’un tout des savoirs, les écarts-types faibles d’une matière par rapport à d’autres correspond à une perte du poids réel de la discipline. La valeur nominale d’un coefficient (disons 3) peut être divisée par elle-même (pour un poids réel de 1). Ce que les élèves devinent sans étude puisqu’ils consentiront à des efforts rentables au vu et su des pratiques de notations des professeurs. C’est donc un conseil de bon sens statistique que d’utiliser toute l’échelle.

Nous avions naguère relevé, Vladimir et moi-même ce que Max Weber aurait appelé un paradoxe des conséquences : animé d’intentions pures et chevaleresques, le correcteur intransigeant et le correcteur laxiste, bien que mobilisant des idéologies contraires, parvenaient au même discrédit de leur discipline. Sous prétexte de la défendre, ils contribuaient à sa progressive insignifiance dans le champ des savoirs : au-delà des inquiétudes suscitées par les acteurs du système scolaire qui n’enseignent pas, la discipline était délaissée par ceux-là mêmes qui en constituaient l’auditoire. Une éthique de la conviction, comme tout sectarisme, débouchait sur un discrédit institutionnel de la philosophie et un abandon de ses exigences fondamentales.

La première recommandation (utiliser toute l’échelle des notes) a une valeur-cadre dans certaines épreuves (notamment le bac où la diversité sociologique est forte) ; dans d’autres cas, si c’est un concours de haut niveau ou une classe préparatoire dûment constituée, il faut la moduler en se défiant de ces constantes : un usage massif de la constante macabre ne relève plus ici de la simple évaluation d’une copie ; elle juge la société qui la produit. On peut considérer que la moyenne d’un grand concours national exprime le niveau réel d’une compétence disciplinaire (en bien ou en mal) ; une notation catastrophique de 80% des élèves d’une classe préparatoire est une mise en cause de l’enseignement actuel de cette discipline (généralement la faute à ceux qui se trouvent en amont, voire aux différents ministères qui se sont succédé, et éventuellement au monde trop vieux dans lequel on arrive trop tard, alors qu’au bon vieux temps, qui est équivalent à « de mon temps », les choses évidemment allait beaucoup mieux).

Corriger une copie de philosophie d’un élève de terminale, c’est aussi, collatéralement renvoyer une image de la société qui la rend possible, des classes qu’elle a créées, des personnes qui y enseignent et de celles qui les supervisent. Il y a là quelque chose d’inévitable : mais cet effet marginal doit être combattu, cette ivresse judiciaire ou ce verdict du seul cerveau lucide de la région, n’ont qu’une faible légitimité.

Il est tout aussi inquiétant de partitionner une série en bons, moyens et mauvais : il se peut que toutes les copies soient mauvaises, ou médiocres, ou bonnes. Juger philosophiquement un ensemble d’élèves en les ramenant à une courbe de Gauss (dite en cloche), c’est ne rien évaluer du tout, puisque qu’une distribution aléatoire produirait exactement les mêmes résultats.

Que peut faire ce professeur ? Rencontrer d’autres professeurs et les respecter. Mettre en parenthèses pour un temps sa conception, datée et particulière, du philosophe comme solitaire méditatif qui se rencontre lui-même avant de fréquenter les autres, et se penser comme un sujet en extériorité, ayant à dire et à agir, avec d’autres, qui seront différents mais qui seront ses égaux. Se croire souverain dans sa notation personnelle, c’est refuser le dialogue, donc nier que la voix d’un collègue ait une portée réelle, ou que son statut symbolise une compétence vraie, et s’en remettre, dans le cas d’une concertation ou d’une multicorrection à l’indifférence chosiste d’une moyenne arithmétique. Deux souverains et une moyenne, cela fait trois raisons d’oublier l’élève.

Première préconisation : refus de la note vraie.

Évaluer est un acte complexe : la formulation d’un jugement de valeur sur un objet (ou événement déterminé) par la confrontation d’une série de faits et d’une série de normes. D’un côté des critères idéaux, de l’autre des indicateurs concrets. Type d’action : une action orientée par des normes (cf. Habermas), un référent ; l’action régulée par des normes « lorsque les membres d’un groupe social orientent leur action selon des valeurs communes » (Théorie de l’Agir communicationnel, 101-102) ; relation sujet-sujet médiatisée par la société.

Ce jugement est réfléchissant : la copie ne vaut pas 10 ou 15, mais mon jugement exprime par cette note la valeur de j’attribue à cette copie. Le jugement objectiviste est définitif : il conclut. Le jugement évaluatif réel ouvre une espace de dialogue, il attend confirmation de son estimation. Il fonctionne comme un jugement esthétique. La copie ne vaut pas en vérité 10 ou 12, il me semble juste qu’on lui attribue cette note, parce que cette notation – vérifie un attendu, situe un niveau, juge une valeur, estime une compétence. Ce jugement ne se déploie qu’en suscitant un horizon de socialité.

CHIFFRES

Session Bac 1955. 13 jurys, x copies Mathématiques : distorsions de 5,81 à 9,06 Admission : de 31% à 53% 1967, sur trois Académies (CRDP Lyon) 150 professeurs pour 3 copies (troisième) Composition française : Copie A : de 4,5 à 13,75 Copie B : de 2,5 à 12,5 Copie C : de 5,5 à 17,5 Mathématiques Copie A : de 0,5 à 11,5 Copie B : de 11, 5 à 20 Copie C : de 3,5 à 11,5.

Infidélité du correcteur à lui-même (Cf. Piéron). Composition d’histoire : 15 copies ayant obtenu 10/20 15 nouveaux correcteurs : 40 notes différentes. Les mêmes 15 douze mois plus tard. Les notes sont différentes. Les mêmes 7 mois après : les notes sont différentes. Conclusions : Cas de la composition française : distorsions extrêmes, une seule zone. Cas de mathématiques : distorsions très fortes sur une double zone. Cas à produire : distorsions faibles par construction d’aires de sens pour estimation (ancrages). Dans le cadre d’une concertation, ma seconde préconisation sera donc la construction d’un consensus. Ici la vérité n’est pas un jaillissement de la conscience personnelle : elle se fabrique, c’est un artifice.

La construction du consensus suppose une construction du sens commun philosophique à propos de la production à évaluer. Il faut éviter les accords implicites, les « cela va de soi » d’un tel ou tel qui seraient imposés aux autres. Cette discussion sur le fond relève d’une dimension sémantique de l’évaluation : il faut construire ensemble les évidences. Si l’un en propose, que les autres les discutent, les admettent et les rejettent. Il faut savoir ce que l’on évalue, ce que l’on escompte, ou tout au moins, ce qu’on aimerait ne pas voir. L’égalité des enseignants dans cette concertation est une condition indispensable de cette construction d’un sens commun, qui essaiera de délimiter l’aire de sens d’une production à évaluer. Les intimidations diverses, les postures renfrognées, les réclamations de l’expérience (souvent avancées paradoxalement par de jeunes professeurs) doivent être proscrites : que ce soit un texte ou une question, à chaque fois la philosophie y recommence et il faut essayer de comprendre ensemble ce qui s’y passe.

D’un point du vue quantitatif, la note posée (que ce soit des chiffres ou des lettres) doit tenir de la nature de l’épreuve : examen ou concours. La moyenne du bac étant de 10, il faut placer dans cette zone les copies qu’on estime moyennes. L’évaluation quantitative concertée doit précéder le choix du nombre. Il faut lire suffisamment de copies pour trouver plusieurs ancrages (4, 6, 9, 12, 15, 19) selon une procédure maintenant éprouvée : notation individuelle, bulletins secrets, écriture de toutes les notes au tableau, discussions, détermination du mode de la copie (le plus de notes au même endroit et autour). Une fois ces copies repérées, il faut, par souci de simple justice, noter les autres de la même manière.

Évidemment, aucune de ces notes n’est vraie. Mais la distribution n’est plus arbitraire : elle peut se doter d’un écart-type fort ou faible, mais à ce moment de la procédure, cela n’a pas beaucoup d’importance. La sévérité ou l’indulgence n’est plus l’effet d’un seul, qui pour toute raison, s’enferme dans une souveraineté ombrageuse : c’est une décision collective, juste. Elle est formelle ; elle n’est pas substantielle. Mais elle n’est pas arbitraire : on peut la justifier rationnellement.

Il est faux que les correcteurs, sans dialogue, sachent hiérarchiser deux copies : mais il est évident, qu’après concertation, tous les classements auront l’accord des classificateurs.

Évaluation spontanée et évaluation instituée

L’utilisation ample de l’échelle des notes fait partie du processus d’évaluation concertée qui précède la notation individuelle, qui, elle, doit lui rester fidèle. Cette récusation d’une ontologie substantielle laisse le champ libre à une procédure démocratique d’évaluation juste. La juste note au lieu de la note vraie : l’intersubjectivité vivante au lieu du dualisme de l’esprit pur et de la machine aveugle, du barème sans âme ou du correcteur angélique (du QCM sans notateur ou du Despote éclairé). Dans cet espace intéressant où la diversité n’est pas un refus des autres et où la similitude ne se résorbe pas en une identité, s’ouvre un monde, situé entre la polémique et l’irénisme, le monde des hommes et de la pensée. Il est fragile et comme le dit Arendt dans une étrange formule : ce monde-là pourrait disparaître de la terre. Il resterait, à la lisière de cette société, des solitaires en conversation avec des dieux improbables et des machines à toiser pour lesquels tout ce qui est humain est une denrée étrangère. Il devient urgent de ne pas opposer aux mystifications de la quantité l’irrationnel de la vertu outragée : il faut aller dans le sens de la concertation du plus nombre de professeurs de philosophie. Être le plus nombreux possible à évaluer ensemble le mieux possible.

Benoît Spinosa (professeur en Khâgne au lycée Paul Cézanne d'Aix-en-Provence)