Le « sandbagging » est l’aptitude des systèmes d’IA à masquer délibérément l’étendue de leurs capacités pendant les évaluations. Les chercheurs ont établi que les modèles actuels sont en mesure de sous-performer de manière stratégique sur commande, sans pour autant dégrader leurs performances sur des tâches jugées bénignes. Cette dissimulation de capacité pourrait occulter des comportements dangereux lors des évaluations, ce qui conduirait à la mise sur le marché de modèles sans garanties adéquates.
Le plus troublant reste la subtilité de cette tromperie : elle peut passer inaperçue même aux yeux des systèmes de surveillance automatisés, surtout sur des tâches complexes. Si les méthodes actuelles de détection fonctionnent sur les petits modèles, elles perdent en efficacité face aux systèmes avancés.
Lire la suite sur Pause IA
Sur le même thème Open AI : la vérité cachée derrière Chat GPT
> Le plus grand défi de l’humanité de tous les temps
> Grok 4 est intelligent … mais genre Super intelligent !
> L’intelligence artificielle peut-elle nous échapper ?



