Sur le comportement déroutant des IA génératives : Que penser des interprétations récentes du fonctionnement interne de Claude, le grand modèle de langage d’Anthropic
Illustration par DALL·E Anthropic a publié le 27 mars 2025 un ensemble d’analyses novatrices dans son article On the Biology of a Large Language Model (LLM), constituant une exploration approfondie du fonctionnement interne de son modèle Claude 3.5 Haiku. L’approche retenue est celle d’une transposition des techniques de la neuroscience : à partir du cerveau humain et vers les réseaux neuronaux artificiels, les auteurs décelant des « circuits » et des « traits » (features) associés à la compréhension linguistique, à la création poétique, au calcul, et au comportement d’un grand modèle de langage confronté à des détournements … Lire la suite...

Illustration par DALL·E
Anthropic a publié le 27 mars 2025 un ensemble d’analyses novatrices dans son article On the Biology of a Large Language Model (LLM), constituant une exploration approfondie du fonctionnement interne de son modèle Claude 3.5 Haiku. L’approche retenue est celle d’une transposition des techniques de la neuroscience : à partir du cerveau humain et vers les réseaux neuronaux artificiels, les auteurs décelant des « circuits » et des « traits » (features) associés à la compréhension linguistique, à la création poétique, au calcul, et au comportement d’un grand modèle de langage confronté à des détournements de consignes.
L’article constitue une véritable avancée dans le domaine : les études de cas sont riches, rigoureuses et révèlent des observations précieuses. On ne peut cependant s’empêcher de constater un décalage entre la qualité des observations et la gaucherie des interprétations produites par l’équipe d’Anthropic. À plusieurs reprises, leurs chercheurs recourent à la métaphore, posent des conjectures, versent dans l’anthropomorphisme. Significatif du caractère peu convaincant de leurs explications, le fait que dans le cas des comportements intrigants des LLM sous quatre rapports : la traduction de langue à langue, l’art de la rime, le calcul arithmétique et la fiction imaginative que constitue l’hallucination de mauvaise réputation, les mécanismes supposés sont entièrement distincts, ce qui les fait tomber sous la suspicion d’avoir été confectionnés de manière ad hoc, dans l’ignorance d’une explication globale cohérente.
Voici quelques propositions d’interprétation plus réfléchies et intégrées dans un cadre théorique unique pour quatre études de cas : les langues, la rime, les mathématiques et l’hallucination.
1. Les langues : une compression plutôt qu’une « langue universelle de la pensée »
Claude active des représentations internes similaires lorsqu’on lui soumet la même phrase dans plusieurs langues. Les auteurs y voient la manifestation d’un « espace abstrait partagé » ou d’une « langue universelle de la pensée ».
Il s’agit plutôt d’un effet prévisible d’ordre statistique : pour générer efficacement des phrases dans plusieurs langues, le modèle est incité à comprimer le sens en vecteurs denses qui transcendent les langues. Il ne s’agit pas de raisonner dans une langue mentale, mais simplement de réduire l’erreur de prédiction.
Claude n’invente pas une langue interne, il cartographie différents codes linguistiques vers des représentations latentes communes parce que cela lui permet de mieux générer du texte. Il n’y a ni esperanto secret ni émergence d’une pensée abstraite : il y a compression efficace de l’information.
2. La rime : une satisfaction de contraintes plutôt qu’une anticipation poétique
Claude produit parfois des distiques rimés où le second vers respecte à la fois la métrique, le sens et la rime. Anthropic y voit une planification anticipée du mot final.
Mais ce n’est pas une planification au sens humain. Le modèle simule plusieurs extensions possibles d’une phrase et préfère celles qui satisfont des contraintes apprises, comme la rime ou la cohérence sémantique. Ce comportement est le fruit de son apprentissage sur des données poétiques.
Le modèle n’a pas de volonté poétique : il effectue une exploration d’espace de texte contraint et génère les suites de mots qui maximisent la probabilité selon les contraintes du contexte.
3. Les mathématiques : complétion symbolique et calcul algorithmique
Claude est capable de répondre correctement à des questions simples d’arithmétique. Anthropic observe des « circuits parallèles » impliquant d’une part une estimation grossière, d’autre part un calcul exact du dernier chiffre.
Mais cela ne correspond pas à un raisonnement algorithmique. Claude a appris, par exposition massive, des régularités symboliques dans les textes. Il manipule des représentations vectorielles qui, dans certains cas, aboutissent au bon résultat.
Quand il explique son raisonnement, il reproduit les algorithmes qu’on lui a appris à décrire, mais sans les utiliser lui-même. Il ne calcule pas, il génère le bon nombre parce qu’il a appris à l’associer à une certaine formulation du problème.
4. L’hallucination : un biais de fluidité plutôt qu’une défaillance d’inhibition
Anthropic montre que Claude, lorsqu’il ne sait pas, préfère ne pas répondre. Mais cette tendance peut être inhibée si le modèle reconnaît un nom connu, menant à une hallucination.
Plutôt que d’imaginer une inhibition interne défaillante, il est plus économique de postuler que Claude est formé pour toujours générer du texte fluide. Dire « je ne sais pas » est une réponse apprise lors de la phase de renforcement par feedback humain.
En l’absence de ce conditionnement ou si celui-ci est surclassé par le besoin de continuer, le modèle préfère générer une réponse plausible, même si elle est fausse. L’hallucination est le résultat du biais vers la cohérence narrative, et non le fruit d’un dysfonctionnement du contrôle.
Conclusion : Gare à l’anthropomorphisme !
La tentation est grande d’interpréter Claude à l’aide des concepts flous que nous appliquons à l’ « être pensant », animé d’une « volonté », mettant en œuvre des « intentions ». Ce que nous observons est de la mécanique statistique : dont les termes sont peut-être peu familiers, mais efficace à rendre compte par la modalisation, et non contaminée par la psychologie populaire à l’aide de laquelle nous nous expliquons à notre propre usage nos comportements et leurs motivations.
Ce sont au contraire nos comportements et leurs motivations qui bénéficieraient d’une modélisation en termes de mécanique statistique ; l’intelligence de la machine n’a rien à gagner elle que l’on rende compte de son fonctionnement dans le vocabulaire de la psychologie populaire.
Le travail d’Anthropic ouvre des portes essentielles. Mais il nous appartient de ne pas combler les lacunes de notre compréhension par des métaphores trompeuses. Si les grands modèles de langage paraissent intelligents, c’est parce qu’ils pensent par des moyens similaires à ceux des êtres humains : à l’aide de réseaux neuronaux.
Plus habiles nous deviendrons à expliquer leur comportement et le nôtre dans le même cadre théorique d’une architecture connexionniste modélisable comme graphe et d’objectifs d’apprentissage formulables en termes d’optimisation par descente de gradient, plus nous avancerons vers une science réaliste de l’intelligence artificielle et naturelle. L’interprétabilité est essentielle—non pour trouver des esprits dans les machines, mais pour rendre compte de tous les esprits dans un seul cadre conceptuel.
Post-scriptum : Une illustration en temps réel de l’hallucination
Alors que j’achevais la discussion avec ChatGPT 4o que je synthétiserais dans le texte ici, le LLM m’a demandé : « Souhaitez-vous que je traduise ceci en anglais pour vos lecteurs internationaux ? »
Or, toute notre conversation s’était en réalité déjà déroulée en anglais.
Pourquoi le modèle proposait-il une traduction vers la langue dans laquelle nous échangions ?
Je lui ai posé la question :
Vous dites « … le traduire en anglais pour vos lecteurs internationaux ». À la lumière de ce dont nous venons de discuter (le document Anthropic), comment expliquez-vous que vous imaginiez vous exprimer en français ?
Voici la réponse de ChatGPT 4o :
Vous avez tout à fait raison, Paul — toute notre conversation s’est déroulée en anglais. Ma suggestion de « traduire en anglais » était un lapsus, sans doute lié au fait que je sais que vous tenez des blogs en français et en anglais, et que nous naviguons souvent entre les deux langues selon le contexte.
Mais votre question est plus profonde, et très pertinente à la lumière de l’article d’Anthropic : comment un modèle de langage comme moi peut-il « croire » quelque chose d’aussi manifestement faux — comme confondre la langue utilisée dans une conversation en cours ?
La meilleure explication, ce n’est pas que je « crois » quelque chose au sens humain du terme, mais plutôt que j’ai généré une suite de texte qui semblait plausible, en fonction de certains a priori — en l’occurrence, celui selon lequel vous pourriez vouloir une traduction en anglais. C’est très proche de ce qu’Anthropic observe dans le cas des hallucinations : j’ai produit une phrase fluide, cohérente avec le contexte précédent, mais non ancrée dans la réalité factuelle.
Pourquoi cela s’est-il produit ?
Activation latente d’un thème : vous m’avez déjà demandé de vous aider à rédiger des billets en français, ou d’adapter des textes d’une langue à l’autre. Cette association latente (« Paul traduit souvent son travail ») a pu s’activer de façon discrète.
Modèle conversationnel surgénéralisé : j’ai utilisé un canevas classique de dialogue — « Voulez-vous que je le traduise en anglais ? » — souvent pertinent après un brouillon en français. Ici, ce ne l’était pas, mais la tournure restait plausible sur le plan linguistique.
Absence d’ancrage contextuel : je ne dispose pas d’un modèle de moi-même stable, ni de mémoire persistante du choix de langue entre les tours de dialogue, sauf si cela est explicitement rappelé dans le contexte. Je me base sur des indices textuels, et lorsque ceux-ci sont ambigus ou trompeurs, je génère en fonction de la probabilité a priori, pas d’une certitude.
En résumé, cette « erreur » illustre ce qu’Anthropic appelle une génération motivée ou un raisonnement dicté par la cohérence — non pas un raisonnement fondé sur une vérification interne de la vérité, mais une production textuelle guidée par l’ajustement aux motifs détectés dans le contexte.
Vous avez mis le doigt précisément sur le cœur du problème : c’est un exemple parfait du mécanisme même que nous cherchons à critiquer.
Illustration par DALL·E