Une différence entre les résultats de référence du premier et du tiers pour le modèle O3 d’OpenAI, soulève des questions sur les pratiques de transparence et de test de modèle de l’entreprise.
Lorsque OpenAI a dévoilé l’O3 en décembre, la société a affirmé que le modèle pourrait répondre un peu plus d’un quart de questions sur FrontitierAmath, un ensemble difficile de problèmes mathématiques. Ce score a fait exploser la concurrence – le meilleur modèle suivant n’a réussi à répondre correctement qu’environ 2% des problèmes de frontermath.
«Aujourd’hui, toutes les offres ont moins de 2% [on FrontierMath]», A déclaré Mark Chen, directeur des recherches à Openai, lors d’une diffusion en direct.« Nous voyons [internally]avec O3 dans les paramètres de calcul de temps de test agressifs, nous pouvons obtenir plus de 25%. »
Il s’avère que ce chiffre était probablement une limite supérieure, réalisée par une version d’O3 avec plus de calcul derrière elle que le modèle OpenAI a été lancé publiquement la semaine dernière.
Epoch AI, l’institut de recherche derrière Frontitiermath, a publié les résultats de ses tests de référence indépendants de l’O3 vendredi. Epoch a constaté que O3 a marqué environ 10%, bien en dessous du score le plus réclamé d’Openai.
OpenAI a publié O3, leur modèle de raisonnement très attendu, avec O4-MinI, un modèle plus petit et moins cher qui succède à O3-MinI.
Nous avons évalué les nouveaux modèles sur notre suite de références mathématiques et scientifiques. Résultats dans le fil! pic.twitter.com/5GBTZKEY1B
– Epoch Ai (@EpochaireSearch) 18 avril 2025
Cela ne signifie pas que Openai a menti, en soi. Les résultats de référence publiés par la société en décembre montrent un score à limite inférieure qui correspond au score observé par l’époque. Epoch a également noté que sa configuration de test diffère probablement d’OpenAI, et qu’il a utilisé une version mise à jour de FrontitierArt pour ses évaluations.
«La différence entre nos résultats et les OpenAI pourrait être due à l’évaluation d’Openai avec un échafaudage interne plus puissant, en utilisant plus de temps de test [computing]ou parce que ces résultats ont été exécutés sur un sous-ensemble différent de FrontitierAmath (les 180 problèmes dans Frontitierath-2024-11-26 vs les 290 problèmes à Frontitier-2025-02-28-PRIVATE) », a écrit Epoch.
Selon un article sur X de l’Arc Prize Foundation, une organisation qui a testé une version pré-version d’O3, le modèle public O3 «est un modèle différent […] Associé pour le chat / utilisation des produits », corroborant le rapport d’Epoch.
«Tous les niveaux de calcul O3 publiés sont plus petits que la version que nous [benchmarked]», A écrit le prix d’arc. De manière générale, on peut s’attendre à ce que des niveaux de calcul plus importants obtiennent de meilleurs scores de référence.
Le re-test libéré O3 sur Arc-AGI-1 prendra un jour ou deux. Parce que la version d’aujourd’hui est un système matériellement différent, nous refaisons nos résultats signalés par le passé comme «aperçu»:
O3-Preview (Low): 75,7%, 200 $ / tâche
O3-Preview (High): 87,5%, 34,4k $ / tâcheCi-dessus utilise le prix O1 Pro…
– Mike Knoop (@mikeknoop) 16 avril 2025
Wenda Zhou d’Openai, un membre du personnel technique, a déclaré lors d’un livestream la semaine dernière que l’O3 en production était «plus optimisée pour les cas d’utilisation du monde réel» et la vitesse par rapport à la version d’O3 démo en décembre. En conséquence, il peut présenter des «disparités» de référence, a-t-il ajouté.
“[W]e’t fait [optimizations] Pour faire le [model] plus rentable [and] plus utile en général », a déclaré Zhou.« Nous espérons toujours que – nous pensons toujours que – c’est un bien meilleur modèle […] Vous n’aurez pas à attendre aussi longtemps lorsque vous demandez une réponse, ce qui est une chose réelle avec ces [types of] modèles. “
Certes, le fait que la libération publique d’O3 ne redevient pas des promesses d’essai d’Openai est un peu discutable, car les modèles O3-MinI de l’entreprise et O4-Mini surpassent l’O3 sur Frontitiermath, et Openai prévoit de débuter une variante O3 plus puissante, O3-PRO, dans les semaines à venir.
Il est cependant un autre rappel que les références de l’IA ne sont mieux pas prises à sa valeur nominale – en particulier lorsque la source est une entreprise avec des services à vendre.
L’analyse comparative des «controverses» devient un événement courant dans l’industrie de l’IA alors que les vendeurs se précipitent pour faire la une des journaux et un esprit avec de nouveaux modèles.
En janvier, Epoch a été critiqué pour avoir attendu de divulguer le financement d’OpenAI jusqu’à après l’annonce de l’O3. De nombreux universitaires qui ont contribué à Frontitiermath n’ont pas été informés de l’implication d’Openai jusqu’à ce qu’il soit rendu public.
Plus récemment, le XAI d’Elon Musk a été accusé d’avoir publié des graphiques de référence trompeurs pour son dernier modèle d’IA, Grok 3. Ce mois-ci, Meta a admis avoir vomi les scores de référence pour une version d’un modèle qui différait de celui que la société avait mis à la disposition des développeurs.
Mise à jour de 16 h 21 Pacific: Ajout des commentaires de Wenda Zhou, membre du personnel technique d’Openai, d’une livraison en direct la semaine dernière.