BIENVENUE SUR HAITI RENCONTRES
  • Accueil
    • À propos de nous
  • Dernière nouvelle
  • Culture
  • Motivation
  • Science
    • Technologie
  • Contact
Devenir un écrivain
Font ResizerAa
BIENVENUE SUR HAITI RENCONTRESBIENVENUE SUR HAITI RENCONTRES
Search
  • Accueil
  • Dernière nouvelle
  • Haiti Rencontre
    • Culture
  • Motival
  • Science
    • Technologie
  • Contact
Follow US
© haitirencontres.
BIENVENUE SUR HAITI RENCONTRES > Blog > Technologie > Les scores du modèle O3 AI d’OpenAI plus bas sur une référence que l’entreprise impliquait initialement
Technologie

Les scores du modèle O3 AI d’OpenAI plus bas sur une référence que l’entreprise impliquait initialement

Ali-HR
Last updated: April 21, 2025 12:11 PM
Ali-HR
Share
Les scores du modèle O3 AI d’OpenAI plus bas sur une référence que l’entreprise impliquait initialement
SHARE

Une différence entre les résultats de référence du premier et du tiers pour le modèle O3 d’OpenAI, soulève des questions sur les pratiques de transparence et de test de modèle de l’entreprise.

Lorsque OpenAI a dévoilé l’O3 en décembre, la société a affirmé que le modèle pourrait répondre un peu plus d’un quart de questions sur FrontitierAmath, un ensemble difficile de problèmes mathématiques. Ce score a fait exploser la concurrence – le meilleur modèle suivant n’a réussi à répondre correctement qu’environ 2% des problèmes de frontermath.

«Aujourd’hui, toutes les offres ont moins de 2% [on FrontierMath]», A déclaré Mark Chen, directeur des recherches à Openai, lors d’une diffusion en direct.« Nous voyons [internally]avec O3 dans les paramètres de calcul de temps de test agressifs, nous pouvons obtenir plus de 25%. »

Il s’avère que ce chiffre était probablement une limite supérieure, réalisée par une version d’O3 avec plus de calcul derrière elle que le modèle OpenAI a été lancé publiquement la semaine dernière.

Epoch AI, l’institut de recherche derrière Frontitiermath, a publié les résultats de ses tests de référence indépendants de l’O3 vendredi. Epoch a constaté que O3 a marqué environ 10%, bien en dessous du score le plus réclamé d’Openai.

OpenAI a publié O3, leur modèle de raisonnement très attendu, avec O4-MinI, un modèle plus petit et moins cher qui succède à O3-MinI.

Nous avons évalué les nouveaux modèles sur notre suite de références mathématiques et scientifiques. Résultats dans le fil! pic.twitter.com/5GBTZKEY1B

– Epoch Ai (@EpochaireSearch) 18 avril 2025

Cela ne signifie pas que Openai a menti, en soi. Les résultats de référence publiés par la société en décembre montrent un score à limite inférieure qui correspond au score observé par l’époque. Epoch a également noté que sa configuration de test diffère probablement d’OpenAI, et qu’il a utilisé une version mise à jour de FrontitierArt pour ses évaluations.

«La différence entre nos résultats et les OpenAI pourrait être due à l’évaluation d’Openai avec un échafaudage interne plus puissant, en utilisant plus de temps de test [computing]ou parce que ces résultats ont été exécutés sur un sous-ensemble différent de FrontitierAmath (les 180 problèmes dans Frontitierath-2024-11-26 vs les 290 problèmes à Frontitier-2025-02-28-PRIVATE) », a écrit Epoch.

Selon un article sur X de l’Arc Prize Foundation, une organisation qui a testé une version pré-version d’O3, le modèle public O3 «est un modèle différent […] Associé pour le chat / utilisation des produits », corroborant le rapport d’Epoch.

«Tous les niveaux de calcul O3 publiés sont plus petits que la version que nous [benchmarked]», A écrit le prix d’arc. De manière générale, on peut s’attendre à ce que des niveaux de calcul plus importants obtiennent de meilleurs scores de référence.

Le re-test libéré O3 sur Arc-AGI-1 prendra un jour ou deux. Parce que la version d’aujourd’hui est un système matériellement différent, nous refaisons nos résultats signalés par le passé comme «aperçu»:

O3-Preview (Low): 75,7%, 200 $ / tâche
O3-Preview (High): 87,5%, 34,4k $ / tâche

Ci-dessus utilise le prix O1 Pro…

– Mike Knoop (@mikeknoop) 16 avril 2025

Wenda Zhou d’Openai, un membre du personnel technique, a déclaré lors d’un livestream la semaine dernière que l’O3 en production était «plus optimisée pour les cas d’utilisation du monde réel» et la vitesse par rapport à la version d’O3 démo en décembre. En conséquence, il peut présenter des «disparités» de référence, a-t-il ajouté.

“[W]e’t fait [optimizations] Pour faire le [model] plus rentable [and] plus utile en général », a déclaré Zhou.« Nous espérons toujours que – nous pensons toujours que – c’est un bien meilleur modèle […] Vous n’aurez pas à attendre aussi longtemps lorsque vous demandez une réponse, ce qui est une chose réelle avec ces [types of] modèles. “

Certes, le fait que la libération publique d’O3 ne redevient pas des promesses d’essai d’Openai est un peu discutable, car les modèles O3-MinI de l’entreprise et O4-Mini surpassent l’O3 sur Frontitiermath, et Openai prévoit de débuter une variante O3 plus puissante, O3-PRO, dans les semaines à venir.

Il est cependant un autre rappel que les références de l’IA ne sont mieux pas prises à sa valeur nominale – en particulier lorsque la source est une entreprise avec des services à vendre.

L’analyse comparative des «controverses» devient un événement courant dans l’industrie de l’IA alors que les vendeurs se précipitent pour faire la une des journaux et un esprit avec de nouveaux modèles.

En janvier, Epoch a été critiqué pour avoir attendu de divulguer le financement d’OpenAI jusqu’à après l’annonce de l’O3. De nombreux universitaires qui ont contribué à Frontitiermath n’ont pas été informés de l’implication d’Openai jusqu’à ce qu’il soit rendu public.

Plus récemment, le XAI d’Elon Musk a été accusé d’avoir publié des graphiques de référence trompeurs pour son dernier modèle d’IA, Grok 3. Ce mois-ci, Meta a admis avoir vomi les scores de référence pour une version d’un modèle qui différait de celui que la société avait mis à la disposition des développeurs.

Mise à jour de 16 h 21 Pacific: Ajout des commentaires de Wenda Zhou, membre du personnel technique d’Openai, d’une livraison en direct la semaine dernière.

TAGGED:basdOpenAIimpliquaitinitialementlentrepriselesmodèleréférencescoressurune
Share This Article
Twitter Email Copy Link Print
Previous Article Le pape François décède à 88 ans; Kilmar Abrego Garcia: NPR Le pape François décède à 88 ans; Kilmar Abrego Garcia: NPR
Next Article L’héritage du pape François L’héritage du pape François
Leave a comment

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

Devenir un écrivain

Nous recherchons des écrivains

À propos de nous
Haïti-rencontre est une initiative ambitieuse lancée par des hommes d’horizons divers, dont quelques Haïtiens, préoccupés par l’avenir du monde.
En savoir plus

FacebookLike
TwitterFollow
InstagramFollow
LinkedInFollow
MediumFollow
QuoraFollow

Popular Posts

Genève Open: Novak Djokovic bat Cameron Norrie pour atteindre final et se clôture sur le 100e titre

Novak Djokovic a éloigné une victoire de son 100e titre de simple ATP Tour au…

By Ali-HR

Le président américain dit que les films non américains sont touchés à 100% de prélèvements

Le président américain Donald Trump dit qu'il prévoit de frapper des films réalisés dans des…

By Ali-HR

Comment Trump a échappé au problème de Jeffrey Epstein

Depuis 2016, lorsqu'il a descendu un escalator d'or et a fait ses premiers pas dans…

By Ali-HR

You Might Also Like

Shopify embauche Chatgpt comme votre acheteur personnel, selon un nouveau rapport
Technologie

Shopify embauche Chatgpt comme votre acheteur personnel, selon un nouveau rapport

By Ali-HR
Codes promotionnels Samsung: 30% de réduction | Avril 2025
Technologie

Codes promotionnels Samsung: 30% de réduction | Avril 2025

By Ali-HR
Mycopunk est une lettre d’amour optimiste aux tireurs d’extraction
Technologie

Mycopunk est une lettre d’amour optimiste aux tireurs d’extraction

By Ali-HR
Le gouverneur de Washington signe un projet de loi sur le contrôle des loyers
Dernière nouvelle

Le gouverneur de Washington signe un projet de loi sur le contrôle des loyers

By Ali-HR

À propos de nous

Haïti-Rencontres  est une initiative ambitieuse lancée par des hommes d’horizons divers,  préoccupés par l’avenir du monde.

BIENVENUE SUR HAITI RENCONTRES
Facebook Twitter Youtube Rss Medium
Principales catégories
  • Technologie
  • Nouvelles
  • Culture
  • Motival
  • Science
Liens utiles
  • À propos de nous
  • Contact Us
  • politique de confidentialité
  • Termes et conditions
© haitirencontres.
Welcome Back!

Sign in to your account

Lost your password?