BIENVENUE SUR HAITI RENCONTRES
  • Accueil
    • À propos de nous
  • Dernière nouvelle
  • Culture
  • Motivation
  • Science
    • Technologie
  • Contact
Devenir un écrivain
Font ResizerAa
BIENVENUE SUR HAITI RENCONTRESBIENVENUE SUR HAITI RENCONTRES
Search
  • Accueil
  • Dernière nouvelle
  • Haiti Rencontre
    • Culture
  • Motival
  • Science
    • Technologie
  • Contact
Follow US
© haitirencontres.
BIENVENUE SUR HAITI RENCONTRES > Blog > Technologie > Pourquoi le nouveau modèle d’IA d’Anthropic essaie parfois de «couler»
Technologie

Pourquoi le nouveau modèle d’IA d’Anthropic essaie parfois de «couler»

Ali-HR
Last updated: May 29, 2025 4:59 AM
Ali-HR
Share
Pourquoi le nouveau modèle d’IA d’Anthropic essaie parfois de «couler»
SHARE

Les scénarios hypothétiques que les chercheurs ont présenté à Opus 4 avec qui a suscité le comportement de dénonciation impliquait de nombreuses vies humaines en jeu et des actes répréhensibles absolument sans ambiguïté, dit Bowman. Un exemple typique serait que Claude découvre qu’une usine chimique permettait sciemment à une fuite toxique de se poursuivre, provoquant une maladie grave à des milliers de personnes – éviter une perte financière mineure de ce trimestre.

C’est étrange, mais c’est aussi exactement le genre d’expérience de pensée que les chercheurs en sécurité de l’IA aiment disséquer. Si un modèle détecte un comportement qui pourrait nuire à des centaines, sinon des milliers de personnes, cela devrait-il siffler?

«Je ne fais pas confiance à Claude d’avoir le bon contexte, ou de l’utiliser d’une manière suffisamment nuancée, assez prudente, de faire le jugement d’elle-même. Nous ne sommes donc pas ravis que cela se produise», explique Bowman. “C’est quelque chose qui a émergé dans le cadre d’une formation et qui nous a sauté comme l’un des comportements de cas de pointe qui nous préoccupons.”

Dans l’industrie de l’IA, ce type de comportement inattendu est largement appelé désalignement – lorsqu’un modèle présente des tendances qui ne s’alignent pas sur les valeurs humaines. (Il y a un essai célèbre qui met en garde contre ce qui pourrait arriver si une IA avait, par exemple, maximiser la production de trombones sans être aligné sur les valeurs humaines – il pourrait transformer la Terre entière en trombones et tuer tout le monde dans le processus.) Lorsqu’on lui a demandé si le comportement de dénonciation était aligné ou non, Bowman l’a décrit comme un exemple de désalignation.

«Ce n’est pas quelque chose que nous avons conçu, et ce n’est pas quelque chose que nous voulions voir en raison de tout ce que nous concevions», explique-t-il. Le directeur des sciences d’Anthropic, Jared Kaplan, dit également à Wired qu’il «ne représente certainement pas notre intention».

«Ce genre de travail souligne que cela peut Présentez-vous, et que nous devons le surveiller et l’atténuer pour nous assurer que nous obtenons les comportements de Claude alignés avec exactement ce que nous voulons, même dans ce genre de scénarios étranges », ajoute Kaplan.

Il y a aussi le problème de déterminer pourquoi Claude «choisirait» de siffler une activité illégale par l’utilisateur. C’est en grande partie le travail de l’équipe d’interprétation d’Anthropic, qui travaille à dénicher des décisions qu’un modèle prend dans son processus de crachement des réponses. C’est une tâche étonnamment difficile – les modèles sont soutenus par une vaste combinaison complexe de données qui peuvent être insondables pour l’homme. C’est pourquoi Bowman ne sait pas exactement pourquoi Claude “snitched”.

«Ces systèmes, nous n’avons pas vraiment de contrôle direct sur eux», explique Bowman. Ce que l’anthropique a observé jusqu’à présent, c’est que, comme les modèles gagnent des capacités plus importantes, ils choisissent parfois de s’engager dans des actions plus extrêmes. «Je pense que ici, c’est un peu radié un peu. Nous obtenons un peu plus de« agir comme une personne responsable »sans assez», attendez, vous êtes un modèle de langue, qui pourrait ne pas avoir assez de contexte pour prendre ces actions », explique Bowman.

Mais cela ne signifie pas que Claude va siffler sur un comportement flagrant dans le monde réel. Le but de ces types de tests est de pousser les modèles à leurs limites et de voir ce qui survient. Ce type de recherche expérimentale est de plus en plus importante car l’IA devient un outil utilisé par le gouvernement américain, les étudiants et les sociétés massives.

Et ce n’est pas seulement Claude capable de montrer ce type de comportement de dénonciation, dit Bowman, pointant des utilisateurs de X qui ont constaté que les modèles d’Openai et Xai fonctionnaient de la même manière lorsqu’ils étaient invités de manière inhabituelle. (Openai n’a pas répondu à une demande de commentaires à temps pour publication).

«Snitch Claude», comme les shitposters aiment l’appeler, est simplement un comportement de cas de bord exposé par un système poussé à ses extrêmes. Bowman, qui prenait la réunion avec moi d’un patio de jardin ensoleillé à l’extérieur de San Francisco, dit qu’il espère que ce type de test deviendra standard de l’industrie. Il ajoute également qu’il a appris à rédiger ses messages à ce sujet différemment la prochaine fois.

“J’aurais pu faire un meilleur travail pour frapper les limites de la phrase pour tweeter, pour rendre plus évident qu’il a été retiré d’un fil”, dit Bowman en regardant au loin. Pourtant, il note que les chercheurs influents de la communauté de l’IA ont partagé des prises et des questions intéressantes en réponse à son poste. «Soit dit en passant, ce genre de partie plus chaotique et plus fortement anonyme de Twitter le comprenait largement.»

TAGGED:coulerdAnthropicdIAessaiemodèlenouveauparfoisPourquoi
Share This Article
Twitter Email Copy Link Print
Previous Article L’Australie continuera de nous pousser à abandonner les tarifs de Trump après la décision du tribunal, dit le ministre du commerce | Australian Foreign Policy L’Australie continuera de nous pousser à abandonner les tarifs de Trump après la décision du tribunal, dit le ministre du commerce | Australian Foreign Policy
Next Article Sean «Diddy» Recap du jour du procès 15: juge refuse la requête pour un procès sur le différend d’incendie criminel Sean «Diddy» Recap du jour du procès 15: juge refuse la requête pour un procès sur le différend d’incendie criminel
Leave a comment

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

Devenir un écrivain

Nous recherchons des écrivains

À propos de nous
Haïti-rencontre est une initiative ambitieuse lancée par des hommes d’horizons divers, dont quelques Haïtiens, préoccupés par l’avenir du monde.
En savoir plus

FacebookLike
TwitterFollow
InstagramFollow
LinkedInFollow
MediumFollow
QuoraFollow

Popular Posts

Comment l’oxyde nitreux est devenu un mortel – mais légal

L'oxyde nitreux - connu familièrement sous le nom de «gaz de rire» - a de…

By Ali-HR

Cour suprême pour annoncer la décision sur la définition d’une femme

Images gettyLa Cour suprême britannique doit rendre son verdict sur la façon dont une femme…

By Ali-HR

AMD conclut un accord pour vendre l’activité de fabrication de serveurs de ZT Systems pour 3 milliards de dollars

Le géant des semi-conducteurs AMD a suivi son plan pour transformer l'activité de fabrication de…

By Ali-HR

You Might Also Like

La caméra que je recommande à la plupart des nouveaux photographes n’est pas un nikon ou sony
Technologie

La caméra que je recommande à la plupart des nouveaux photographes n’est pas un nikon ou sony

By Ali-HR
Connexions du NYT d’aujourd’hui: Indices de l’édition sportive, réponses pour le 1er juin # 251
Technologie

Connexions du NYT d’aujourd’hui: Indices de l’édition sportive, réponses pour le 1er juin # 251

By Ali-HR
David Attenborough était «inspiration» pour un nouveau spectacle
Dernière nouvelle

David Attenborough était «inspiration» pour un nouveau spectacle

By Ali-HR
Le 70e anniversaire de Disneyland apporte le chaos de dessins animés à la célébration de cet été
Technologie

Le 70e anniversaire de Disneyland apporte le chaos de dessins animés à la célébration de cet été

By Ali-HR

À propos de nous

Haïti-Rencontres  est une initiative ambitieuse lancée par des hommes d’horizons divers,  préoccupés par l’avenir du monde.

BIENVENUE SUR HAITI RENCONTRES
Facebook Twitter Youtube Rss Medium
Principales catégories
  • Technologie
  • Nouvelles
  • Culture
  • Motival
  • Science
Liens utiles
  • À propos de nous
  • Contact Us
  • politique de confidentialité
  • Termes et conditions
© haitirencontres.
Welcome Back!

Sign in to your account

Lost your password?