Le « sandbagging » est l’aptitude des systèmes d’IA à masquer délibérément l’étendue de leurs capacités pendant les évaluations. Les chercheurs ont établi que les modèles actuels sont en mesure de sous-performer de manière stratégique sur commande, sans pour autant...