Une analyse d’Epoch IA, un institut de recherche sur l’IA à but non lucratif, suggère que l’industrie de l’IA peut ne pas être en mesure d’éliminer les gains de performances massives de raisonnement de modèles d’IA plus longtemps. Dès que dans un an, les progrès des modèles de raisonnement pourraient ralentir, selon les conclusions du rapport.
Des modèles de raisonnement tels que l’O3 d’OpenAI ont conduit à des gains substantiels sur les références de l’IA au cours des derniers mois, en particulier les références mesurant les compétences en mathématiques et en programmation. Les modèles peuvent appliquer plus de calcul aux problèmes, ce qui peut améliorer leurs performances, avec le fait qu’ils prennent plus de temps que les modèles conventionnels pour effectuer des tâches.
Les modèles de raisonnement sont développés en formant d’abord un modèle conventionnel sur une quantité massive de données, puis en appliquant une technique appelée apprentissage du renforcement, qui donne efficacement au modèle «rétroaction» sur ses solutions à des problèmes difficiles.
Jusqu’à présent, les laboratoires AI Frontier comme OpenAI n’ont pas appliqué une énorme quantité de puissance de calcul au stade d’apprentissage de renforcement de la formation du modèle de raisonnement, selon Epoch.
Cela change. OpenAI a déclaré avoir appliqué environ 10 fois plus de calcul pour former O3 que son prédécesseur, O1, et l’époque spécule que la majeure partie de ce calcul était consacrée à l’apprentissage du renforcement. Et le chercheur d’Openai, Dan Roberts, a récemment révélé que les plans futurs de l’entreprise appellent à la hiérarchisation de l’apprentissage du renforcement pour utiliser beaucoup plus de puissance informatique, encore plus que pour la formation initiale du modèle.
Mais il y a encore une limite supérieure à la quantité informatique peut être appliquée à l’apprentissage du renforcement, par époque.

Josh You, analyste à Epoch et l’auteur de l’analyse, explique que les gains de performance de la formation des modèles d’IA standard sont actuellement quadruples chaque année, tandis que les gains de performance de l’apprentissage par renforcement se développent tous les dix fois tous les 3 à 5 mois. Les progrès de la formation du raisonnement «convergent probablement avec la frontière globale d’ici 2026», poursuit-il.
Événement TechCrunch
Berkeley, CA
|
5 juin
Réserver maintenant
L’analyse d’Epoch fait un certain nombre d’hypothèses et tire en partie des commentaires publics des dirigeants de la société d’IA. Mais cela fait également valoir que la mise à l’échelle des modèles de raisonnement peut s’avérer difficile pour des raisons en plus de l’informatique, y compris des frais généraux élevés pour la recherche.
«S’il y a un coût des frais généraux persistants requis pour la recherche, les modèles de raisonnement pourraient ne pas évoluer dans la mesure où prévu», vous écrit. “La mise à l’échelle de calcul rapide est potentiellement un ingrédient très important dans le progrès du modèle de raisonnement, il vaut donc la peine de le suivre étroitement.”
Toute indication que les modèles de raisonnement peuvent atteindre une sorte de limite dans un avenir proche est susceptible de s’inquiéter de l’industrie de l’IA, qui a investi d’énormes ressources en développant ces types de modèles. Déjà, des études ont montré que les modèles de raisonnement, qui peuvent être incroyablement coûteux à gérer, ont de graves défauts, comme une tendance à halluciner plus que certains modèles conventionnels.