
Les agents utilisant des outils de débogage ont radicalement surpassé ceux qui ne l’ont pas fait, mais leur taux de réussite n’était toujours pas assez élevé.
Crédit: Microsoft Research
Cette approche a beaucoup plus de succès que de compter sur les modèles car ils sont généralement utilisés, mais lorsque votre meilleur cas est un taux de réussite de 48,4%, vous n’êtes pas prêt pour les heures de grande écoute. Les limitations sont probables parce que les modèles ne comprennent pas pleinement comment utiliser au mieux les outils et parce que leurs données de formation actuelles ne sont pas adaptées à ce cas d’utilisation.
“Nous pensons que cela est dû à la rareté des données représentant le comportement de prise de décision séquentiel (par exemple, les traces de débogage) dans le corpus de formation LLM actuel”, indique le billet de blog. “Cependant, l’amélioration significative des performances … valide qu’il s’agit d’une direction de recherche prometteuse.”
Ce rapport initial n’est que le début des efforts, affirme le Post. L’étape suivante consiste à «affiner un modèle d’info-recherche spécialisé dans la collecte des informations nécessaires pour résoudre les bogues». Si le modèle est important, le meilleur mouvement pour économiser les coûts d’inférence peut être de “construire un modèle d’info plus petit qui peut fournir des informations pertinentes à la plus grande”.
Ce n’est pas la première fois que nous voyons des résultats qui suggèrent que certaines des idées ambitieuses sur les agents de l’IA en remplacement directement des développeurs sont assez loin de la réalité. De nombreuses études ont déjà montré que même si un outil d’IA peut parfois créer une application qui semble acceptable pour l’utilisateur pour une tâche étroite, les modèles ont tendance à produire du code chargé de bogues et de vulnérabilités de sécurité, et ils ne sont généralement pas capables de résoudre ces problèmes.
Il s’agit d’une étape précoce sur la voie des agents de codage de l’IA, mais la plupart des chercheurs conviennent qu’il reste probable que le meilleur résultat est un agent qui permet à un développeur humain un temps substantiel, pas celui qui peut faire tout ce qu’ils peuvent faire.