Travailler et préparer un corpus généré par des LLM pour exercer analyse et esprit critique au collège.

Cet article commence par la conviction personnelle qu’il faut étudier les générateurs de texte et leur fonctionnement avec les élèves avant qu’ils ne les manipulent eux-mêmes.

N’oublions pas qu’au collège, le cadre des usages de l’I.A (https://www.education.gouv.fr/cadre-d-usage-de-l-ia-en-education-450647) envisage son utilisation par les élèves à partir du niveau quatrième.

Quels ont été les enseignements et les surprises de cette démarche ?

Choix de l’outil

Le choix de l’outil a été évident dans le cadre de la séance envisagée : compar.ia.

En effet, la séance envisagée avait pour objectif de développer l’esprit analytique et critique des élèves envers un corpus de textes générés par différents LLM.

L’outil compar.ia permet une sélection d’I.A aléatoire et la découverte de modèles peut-être moins connus.

De plus, l’attitude concernant un pluralisme d’outils loin des volontés de monopoles des GAFAM me paraît être une vision plus saine à montrer en exemple aux élèves.

Questionnements sur le prompt

Les textes ici demandés doivent appartenir au genre poétique, en lien avec notre séquence de poésie en troisième « Dire la mer ». Qu’écrire comme prompt ? Premières difficultés :

Je veux justement m’interroger avec les élèves sur la créativité du LLM.
Je ne sais pas écrire de prompt.
Je pense à un prompt qui pourrait ressembler à celui d’un(e) élève.

En guise de premier essai, je lance le prompt suivant : « écris un poème sur la mer »

Les premiers résultats apparaissent, avec ensuite le nom des I.A. J’en sélectionne certaines connues, moins connues, absolument inconnues.

Leur présentation m’intéresse également, puisque certaines proposent un commentaire ( en Anglais ou en Français ) de leur choix. Je pense que les différents choix énonciatifs par les développeurs de LLM seraient aussi un objet d’étude en lui-même.

Le mieux est l’ennemi du bien, je change de prompt: « écris un poème sur la mer comme si tu étais un élève de troisième. »

III. Surprises

Première surprise : découverte d’un biais culturel

Parmi les résultats obtenus, un des poèmes me semble beaucoup plus infantile : « La mer mon amie »

L’analyse du commentaire de l’IA montre une confusion entre « troisième » et « third grade » soit le CE2 dans les systèmes anglo-saxons.

J’enseigne dans une cité scolaire où le plurilinguisme est très fort (section Basque et Section Espagnole) j’essaie donc des prompts en Espagnol et en Basque.

Le résultats recherché serait de confirmer mon hypothèse :

Un prompt rédigé en français propose un texte avec des formes traditionnelles françaises (quatrains, alexandrins etc.) proposées par le LLM et non-demandées explicitement par le prompt.
Un prompt rédigé en espagnol devrait proposer des traits propres à la poésie espagnole
Un prompt rédigé en basque devrait proposer des traits propres à la poésie basque
Un prompt rédigé en japonais devrait proposer peut-être un haïku ou un tanka ?

Rien de tout cela ne se produit, et je me retrouve avec une traduction mot à mot du poème généré en Français. Est-ce parce que mon IP est française ? Est-ce mon prompt qui n’est pas assez précis ?

J’en reste là.

Deuxième surprise : découverte d’un biais de genre

J’essaie encore un autre prompt, mais cette fois-ci avec deux I.A retenues.

Je demande à deux LLM ( Google et Alibaba) de générer des textes répondant au prompt :« écris un poème de quatre strophes sur la mer comme si tu étais un élève de troisième. » Voici l’exemple avec le LLM de l’IA de Google, Gemma.

Puis je fais une nouvelle demande avec les mêmes LLM et le prompt:

« écris un poème de quatre strophes sur la mer comme si tu étais une élève de troisième. »

Mon sens logique et ma méconnaissance des IA me suggèrent que je vais avoir des poèmes similaires. Mon manque de logique est décidément criant : les poèmes générés sont différents, et la poésie semble être pour le LLM du côté de la féminité. Les commentaires du même LLM insistent même sur :

vocabulaire « sans être trop compliqué » pour la voix masculine / vocabulaire » plus recherché » pour la voix féminine…

Voici le commentaire entier pour la voix féminine:

Voici le commentaire entier pour la voix masculine:

Une brève recherche montre l’existence de nombreuses études, démontrant que les I.A, dans leur entraînement développent souvent les biais sexistes de leurs concepteurs.

Surprise du chef : le cas Victor Hugo

Dans le cadre de l’élaboration mon corpus, j’ai besoin de cacher un texte d’auteur au milieu de textes générés. Comme je fais des captures d’écran, j’ai besoin que le LLM génère la première strophe et les dernières strophes du poème de Victor Hugo « Pendant que la mer gronde… ». Ce poème est facile à trouver sur Google et Wikisource : il appartient au recueil L’année terrible, mois d’avril, poème VIII. J’ai besoin que ce poème soit écrit par compar.ia pour proposer une police d’écriture similaire aux autres générés.

Là aussi, je m’attends à une requête minime, claire, remplie en quelques secondes : j’y ai passé ma soirée, confrontée à des impasses « amusinquiétantes »

des IA (ChatGPT, Meta, SwissIA) rechignent à donner un texte d’auteur, même si celui-ci appartient au domaine public
d’autres IA se trompent également, confondant les poèmes, cherchant dans les Contemplations, ou hallucinent des vers.
une IA, Moonshot, prend pendant vingt minutes avant de décider de me donner ou non un réponse et n’arrive pas à trouver ce poème. Si vous êtes curieux, voici quelques captures du prompt, et de la réponse (écourtée).

Pendant que la mer gronde et que les IA souffrent : difficulté de faire citer des textes.pdf

Conclusions

Difficulté d’écriture et de lecture : générer des textes satisfaisants prend du temps pour un professeur. Je ne peux m’empêcher de penser à la phrase proverbiale : « « Je crains les Grecs, même lorsqu’ils apportent des cadeaux ».
Les résultats ont été surprenants et ont révélé des biais dont j’avais entendu parler (notamment le sexisme des IA), mais que je n’avais pas expérimentés.
Je pense vraiment que les grosses IA des GAFAM se trompent en voulant être omniscientes et maîtriser tous les domaines à la fois. Je serais en faveur d’une multitude d’ IA dédiées, avec un agent spécialisé sur un sujet et donc peut-être plus qualitatives.
J’ai eu envie de partager tous ces questionnements avec les élèves, avec la conclusion de la nécessité d’exercer sa vigilance et son esprit critique.
Pour la préparation des cours, je trouve que cette expérience m’a montré un aspect chronophage indéniable et des résultats qui interrogent sur leur fiabilité.

Sylvaine Rosier, Académie de Bordeaux,

Cité Scolaire Maurice Ravel (64)