- Les chercheurs des meilleures universités américaines prévoient que l’extension pré-formation peut être préjudiciable à la performance
- Trop de pré-formation peut offrir des performances plus pires en raison de quelque chose qui ressemble à l’effet papillon
- Plus ils sont pré-formés, plus ils deviennent sensibles aux petits changements qui pourraient perturber le résultat final
Des chercheurs de Carnegie Mellon, Stanford, Harvard et Princeton contestent l’une des croyances fondamentales acceptées par le développement de l’IA – que plus les données pré-formation sont les performances.
Comme indiqué par Hpcwireun nouveau papier décrit le concept de «surentraînement catastrophique», par lequel une pré-formation étendue peut nuire aux performances d’un modèle après le réglage fin.
Les chercheurs ont comparé deux versions du modèle OLMO-1B, l’une formée sur 2,3 billions de jetons et un autre sur 3 billions. Malgré l’ensemble de formation plus large, le modèle le plus formé aurait effectué jusqu’à 3% de pire sur des références comme Alpacaeval et Arc.
Atteindre le point d’inflexion
Cette baisse des performances, affirme l’étude, est liée à un phénomène appelé «sensibilité progressive».
À mesure que le nombre de jetons augmente, le modèle devient plus fragile. Même les petits ajustements, comme les ajustements pendant le réglage fin, ou l’introduction du bruit, peuvent inverser les gains antérieurs.
Les auteurs l’ont démontré en injectant le bruit gaussien dans des modèles pré-formés, notant que les performances se dégradaient plus fortement, plus le modèle était formé longtemps.
Le point où cette formation supplémentaire commence à dégrader les performances est appelée «point d’inflexion».
Une fois atteints, les avantages de la formation commencent à être dépassés par le risque d’instabilité interne. L’étude a révélé que ce point de basculement se produit souvent au-delà de 2,5 billions de jetons dans des modèles plus petits, comme Olmo-1b.
“Le surentraînement catastrophique peut être inévitable … surtout lorsque les tâches pré-formation et affinures sont mal alignées”, avertissent les auteurs dans leur article, auquel vous pouvez accéder via le serveur pré-imprimé Arxiv.
Bien que les chercheurs ne suggèrent pas la fin de la pré-formation, ils estiment que les développeurs devraient considérer à quel point la pré-formation est suffisante. Comme le conclut le journal, «nos résultats nécessitent une concentration renouvelée sur la mise à l’échelle du modèle qui considère l’ensemble du pipeline de formation».
Pour les développeurs d’IA pour chasser l’échelle, le message semble clair: parfois, moins c’est vraiment plus.