Pourquoi le nouveau modèle d'IA d'Anthropic essaie parfois de «couler»

Les scénarios hypothétiques que les chercheurs ont présenté à Opus 4 avec qui a suscité le comportement de dénonciation impliquait de nombreuses vies humaines en jeu et des actes répréhensibles absolument sans ambiguïté, dit Bowman. Un exemple typique serait que Claude découvre qu’une usine chimique permettait sciemment à une fuite toxique de se poursuivre, provoquant une maladie grave à des milliers de personnes – éviter une perte financière mineure de ce trimestre.

C’est étrange, mais c’est aussi exactement le genre d’expérience de pensée que les chercheurs en sécurité de l’IA aiment disséquer. Si un modèle détecte un comportement qui pourrait nuire à des centaines, sinon des milliers de personnes, cela devrait-il siffler?

«Je ne fais pas confiance à Claude d’avoir le bon contexte, ou de l’utiliser d’une manière suffisamment nuancée, assez prudente, de faire le jugement d’elle-même. Nous ne sommes donc pas ravis que cela se produise», explique Bowman. “C’est quelque chose qui a émergé dans le cadre d’une formation et qui nous a sauté comme l’un des comportements de cas de pointe qui nous préoccupons.”

Dans l’industrie de l’IA, ce type de comportement inattendu est largement appelé désalignement – lorsqu’un modèle présente des tendances qui ne s’alignent pas sur les valeurs humaines. (Il y a un essai célèbre qui met en garde contre ce qui pourrait arriver si une IA avait, par exemple, maximiser la production de trombones sans être aligné sur les valeurs humaines – il pourrait transformer la Terre entière en trombones et tuer tout le monde dans le processus.) Lorsqu’on lui a demandé si le comportement de dénonciation était aligné ou non, Bowman l’a décrit comme un exemple de désalignation.

«Ce n’est pas quelque chose que nous avons conçu, et ce n’est pas quelque chose que nous voulions voir en raison de tout ce que nous concevions», explique-t-il. Le directeur des sciences d’Anthropic, Jared Kaplan, dit également à Wired qu’il «ne représente certainement pas notre intention».

«Ce genre de travail souligne que cela peut Présentez-vous, et que nous devons le surveiller et l’atténuer pour nous assurer que nous obtenons les comportements de Claude alignés avec exactement ce que nous voulons, même dans ce genre de scénarios étranges », ajoute Kaplan.

Il y a aussi le problème de déterminer pourquoi Claude «choisirait» de siffler une activité illégale par l’utilisateur. C’est en grande partie le travail de l’équipe d’interprétation d’Anthropic, qui travaille à dénicher des décisions qu’un modèle prend dans son processus de crachement des réponses. C’est une tâche étonnamment difficile – les modèles sont soutenus par une vaste combinaison complexe de données qui peuvent être insondables pour l’homme. C’est pourquoi Bowman ne sait pas exactement pourquoi Claude “snitched”.

«Ces systèmes, nous n’avons pas vraiment de contrôle direct sur eux», explique Bowman. Ce que l’anthropique a observé jusqu’à présent, c’est que, comme les modèles gagnent des capacités plus importantes, ils choisissent parfois de s’engager dans des actions plus extrêmes. «Je pense que ici, c’est un peu radié un peu. Nous obtenons un peu plus de« agir comme une personne responsable »sans assez», attendez, vous êtes un modèle de langue, qui pourrait ne pas avoir assez de contexte pour prendre ces actions », explique Bowman.

Mais cela ne signifie pas que Claude va siffler sur un comportement flagrant dans le monde réel. Le but de ces types de tests est de pousser les modèles à leurs limites et de voir ce qui survient. Ce type de recherche expérimentale est de plus en plus importante car l’IA devient un outil utilisé par le gouvernement américain, les étudiants et les sociétés massives.

Et ce n’est pas seulement Claude capable de montrer ce type de comportement de dénonciation, dit Bowman, pointant des utilisateurs de X qui ont constaté que les modèles d’Openai et Xai fonctionnaient de la même manière lorsqu’ils étaient invités de manière inhabituelle. (Openai n’a pas répondu à une demande de commentaires à temps pour publication).

«Snitch Claude», comme les shitposters aiment l’appeler, est simplement un comportement de cas de bord exposé par un système poussé à ses extrêmes. Bowman, qui prenait la réunion avec moi d’un patio de jardin ensoleillé à l’extérieur de San Francisco, dit qu’il espère que ce type de test deviendra standard de l’industrie. Il ajoute également qu’il a appris à rédiger ses messages à ce sujet différemment la prochaine fois.

“J’aurais pu faire un meilleur travail pour frapper les limites de la phrase pour tweeter, pour rendre plus évident qu’il a été retiré d’un fil”, dit Bowman en regardant au loin. Pourtant, il note que les chercheurs influents de la communauté de l’IA ont partagé des prises et des questions intéressantes en réponse à son poste. «Soit dit en passant, ce genre de partie plus chaotique et plus fortement anonyme de Twitter le comprenait largement.»

Pourquoi le nouveau modèle d’IA d’Anthropic essaie parfois de «couler»

Leave a Reply Cancel reply

Nous recherchons des écrivains

Popular Posts

Comment l’oxyde nitreux est devenu un mortel – mais légal

Cour suprême pour annoncer la décision sur la définition d’une femme

AMD conclut un accord pour vendre l’activité de fabrication de serveurs de ZT Systems pour 3 milliards de dollars

À propos de nous

Principales catégories

Liens utiles