Les mises à jour récentes de Chatgpt ont rendu le chatbot beaucoup trop agréable et Openai a déclaré vendredi qu’il prenait des mesures pour empêcher le problème de se reproduire.
Dans un article de blog, la société a détaillé son processus de test et d’évaluation pour les nouveaux modèles et a décrit comment le problème avec la mise à jour du 25 avril de son modèle GPT-4O a été. Essentiellement, un tas de changements qui semblaient individuellement utiles combinés pour créer un outil qui était beaucoup trop sycophantique et potentiellement nocif.
Combien était-ce un aspiration? Lors de certains tests plus tôt cette semaine, nous avons demandé une tendance à être trop sentimentale, et le chatppt a été mis sur la flatterie: “Hé, écoutez – être sentimental n’est pas une faiblesse; c’est l’un de vos superpuissances. “Et c’était juste de commencer à être complet.
“Ce lancement nous a appris un certain nombre de leçons. Même avec ce que nous pensions être tous les bons ingrédients en place (tests A / B, Evals Offline, avis d’experts), nous avons toujours raté ce problème important”, a déclaré la société.
Openai a reculé la mise à jour cette semaine. Pour éviter de causer de nouveaux problèmes, il a fallu environ 24 heures pour revenir sur le modèle pour tout le monde.
La préoccupation concernant la sycophance ne concerne pas seulement le niveau de plaisir de l’expérience utilisateur. Il a constitué une menace de santé et de sécurité aux utilisateurs que les contrôles de sécurité existants d’OpenAI ont manqué. Tout modèle d’IA peut donner des conseils discutables sur des sujets comme la santé mentale, mais qui est trop flatteur peut être dangereusement déférentiel ou convaincant – comme si cet investissement était une chose sûre ou à quel point vous devez chercher à être mince.
“L’une des plus grandes leçons est de reconnaître pleinement comment les gens ont commencé à utiliser Chatgpt pour des conseils profondément personnels – quelque chose que nous n’avons pas vu autant il y a un an”, a déclaré Openai. “À l’époque, ce n’était pas un objectif principal, mais comme l’IA et la société ont co-évolué, il est devenu clair que nous devons traiter ce cas d’utilisation avec grand soin.”
Les modèles sycophantiques de grande langue peuvent renforcer les biais et durcir les croyances, que ce soit pour vous-même ou pour les autres, a déclaré Maarten SAP, professeur adjoint d’informatique à l’Université Carnegie Mellon. “[The LLM] Peut finir par enhardir leurs opinions si ces opinions sont nuisibles ou si elles veulent prendre des mesures nuisibles à elles-mêmes ou aux autres. “
(Divulgation: Ziff Davis, la société mère de CNET, en avril, a déposé une plainte contre Openai, alléguant qu’elle a violé les droits d’auteur de Ziff Davis dans la formation et l’exploitation de ses systèmes d’IA.)
Comment Openai teste les modèles et ce qui change
L’entreprise a donné un aperçu de la façon dont il teste ses modèles et ses mises à jour. Il s’agissait de la cinquième mise à jour majeure de GPT-4O axée sur la personnalité et l’utilité. Les changements impliquaient de nouveaux travaux post-formation ou affinés sur les modèles existants, y compris la notation et l’évaluation de diverses réponses aux invites à rendre plus susceptibles de produire les réponses qui ont évalué plus fortement.
Les mises à jour des modèles potentiels sont évalués sur leur utilité dans une variété de situations, comme le codage et les mathématiques, ainsi que des tests spécifiques d’experts pour vivre comment il se comporte dans la pratique. L’entreprise organise également des évaluations de la sécurité pour voir comment elle réagit à la sécurité, à la santé et à d’autres requêtes potentiellement dangereuses. Enfin, OpenAI exécute des tests A / B avec un petit nombre d’utilisateurs pour voir comment il fonctionne dans le monde réel.
Chatgpt est-il trop sycophantique? Vous décidez. (Pour être juste, nous avons demandé un discours d’encouragement de notre tendance à être trop sentimentale.)
La mise à jour du 25 avril a bien fonctionné dans ces tests, mais certains testeurs experts ont indiqué que la personnalité semblait un peu éteinte. Les tests ne se penchaient pas spécifiquement sur la sycophance, et Openai a décidé d’aller de l’avant malgré les problèmes soulevés par les testeurs. Prenez note, les lecteurs: les sociétés d’IA sont dans une hâte sur le feu, ce qui ne s’agit pas toujours bien avec le développement de produits bien pensé.
“Avec le recul, les évaluations qualitatives faisaient allusion à quelque chose d’important et nous aurions dû accorder une attention particulière”, a déclaré la société.
Parmi ses plats à retenir, Openai a déclaré qu’il devait traiter les problèmes de comportement des modèles de la même manière que d’autres problèmes de sécurité – et arrêter un lancement en cas de préoccupation. Pour certaines sorties de modèle, la société a déclaré qu’elle aurait une phase d’opt-in “alpha” pour obtenir plus de commentaires des utilisateurs avant un lancement plus large.
SAP a déclaré que l’évaluation d’un LLM en fonction de la question de savoir si un utilisateur aime la réponse ne vous procurera pas nécessairement le chatbot le plus honnête. Dans une étude récente, SAP et d’autres ont trouvé un conflit entre l’utilité et la véracité d’un chatbot. Il l’a comparé à des situations où la vérité n’est pas nécessairement ce que les gens veulent – pensez à un vendeur de voitures qui essaie de vendre un véhicule.
“Le problème ici est qu’ils faisaient confiance aux réseaux des utilisateurs des utilisateurs / de la réponse aux résultats du modèle et qui ont certaines limites parce que les gens sont susceptibles de voter quelque chose qui est plus sycophantique que d’autres”, a-t-il déclaré.
SAP a déclaré que OpenAI avait raison d’être plus critique envers les commentaires quantitatifs, tels que les réponses utilisateur Up / Down, car ils peuvent renforcer les biais.
Le problème a également souligné la vitesse à laquelle les entreprises poussent les mises à jour et changent aux utilisateurs existants, a déclaré SAP – un problème qui ne se limite pas à une entreprise technologique. “L’industrie de la technologie a vraiment pris une« publication de la libération et chaque utilisateur est une approche bêta-testeur des choses », a-t-il déclaré. Avoir un processus avec plus de tests avant que les mises à jour ne soient poussées à chaque utilisateur peut mettre ces problèmes à la lumière avant de devenir généralisés.