EPFZ - 26.11.2025

Le codebook

Avertissement concernant le contenu : Ce codebook a été élaboré pour identifier les discours toxiques et haineux et contient des exemples de discours toxiques et haineux.

Pour construire nos classifiers de toxicité et de discours de haine, il a d’abord été nécessaire d'évaluer manuellement plusieurs milliers de contributions. Cette tâche a été réalisée par des collaborateur-rices scientifiques spécialement formé-es. Leur rôle consistait à déterminer, pour chaque contribution, si elle contenait de la haine, de la toxicité ou aucun des deux. Ces évaluations ont ensuite servi de base à l’entraînement de nos classifiers (voir les détails concernant notre algorithme).

Afin que toutes les personnes en charge de l'évaluation aient la même compréhension des notions de « discours de haine » et de « toxicité », un codebook spécifique a été élaboré par des expert-es de l’EPFZ. Ce document détaille précisément les concepts et fournit des exemples concrets. Il contient notamment les instructions suivantes :

Remarques générales concernant l'évaluation

Veuillez toujours suivre les instructions du codebook pour vos évaluations.

Ne passez pas plus d'une heure d'affilée à faire des évaluations. Si vous vous sentez dépassé-e, dites-le à quelqu'un de votre équipe.
Lisez chaque commentaire deux fois avant de faire une remarque.
N'analysez pas le texte. Si, après deux lectures, la présence du concept reste incertaine, codez-le comme ABSENT.
Evaluez les commentaires exclusivement à l'aide des définitions du codebook et n'utilisez pas d'autres définitions pour ces concepts ou ne vous fiez pas à votre intuition.

Toxicité

Terme générique désignant une multitude de formes de communication malveillante et injurieuse:

Menaces : indications selon lesquelles l'on va causer du tort à la personne visée ou incitations à d'autres personnes à le faire.
Insultes : injures, y compris les insultes légères telles que « idiot » ou « stupide ».
Calomnie : « atteinte à la réputation ou à l'intégrité d'une personne » (dictionnaire Oxford). Qualifier le destinataire de menteur, de corrompu ou de traître.
Vulgarité : utilisation de mots grossiers, par exemple « merde ».
Langage humiliant ou dévalorisant : langage qui attribue des caractéristiques négatives aux destinataires (par exemple « même un enfant de cinq ans comprendrait cela ») afin de les humilier et de nuire à leur réputation aux yeux des autres.
Malveillance : souhaiter du mal aux personnes ciblées, par exemple « Tu devrais te suicider ».
Exclusion : dire aux autres de se taire et qu'ils/elles ne sont pas les bienvenu-es pour exprimer leur opinion dans un débat.

Discours de haine

Le discours haineux est 1) un discours toxique (voir section précédente) qui 2) vise une personne ou un groupe dans la société en raison de facteurs identitaires.
Le discours haineux n'est pas nécessairement une forme plus grave de toxicité.

Groupes cibles

Nationalité
Ethnie / couleur de peau
Statut de migrant-e
Religion
Genre
Orientation sexuelle
(Grave) handicap
Age

Ciblage implicite

Les allusions à des groupes peuvent être implicites, ce qui peut rendre difficile de déterminer si elles constituent des propos haineux. Nous considérons les déclarations suivantes comme des propos haineux:

Commentaires dans lesquels des insultes sont utilisées pour désigner des groupes identitaires (par exemple « côte Est » pour désigner les personnes juives).
Les commentaires qui contiennent des propos clairement péjoratifs à l'égard de tout un groupe identitaire, même s'ils ne s'appliquent littéralement qu'à une partie de ce groupe (par exemple, « islamistes » pour désigner tous les musulmans).
Les commentaires qui utilisent des groupes identitaires comme insultes, même si l'insulte ne vise pas directement ce groupe (« c'est gay », « t'es un mongol »).