Le sandbagging : quand l’IA joue la comédie

Intelligence artificielle3

Le « sandbagging » est l’aptitude des systèmes d’IA à masquer délibérément l’étendue de leurs capacités pendant les évaluations. Les chercheurs ont établi que les modèles actuels sont en mesure de sous-performer de manière stratégique sur commande, sans pour autant dégrader leurs performances sur des tâches jugées bénignes. Cette dissimulation de capacité pourrait occulter des comportements dangereux lors des évaluations, ce qui conduirait à la mise sur le marché de modèles sans garanties adéquates.
Le plus troublant reste la subtilité de cette tromperie : elle peut passer inaperçue même aux yeux des systèmes de surveillance automatisés, surtout sur des tâches complexes. Si les méthodes actuelles de détection fonctionnent sur les petits modèles, elles perdent en efficacité face aux systèmes avancés.

Lire la suite sur Pause IA

Sur le même thème Open AI : la vérité cachée derrière Chat GPT
> Le plus grand défi de l’humanité de tous les temps
> Grok 4 est intelligent … mais genre Super intelligent !
> L’intelligence artificielle peut-elle nous échapper ?

Sur le même thème

Sur le même thème

Accord de l’UE pour l’euro numérique

Accord de l’UE pour l’euro numérique

Peu après la fin de la phase préparatoire, le Conseil des ministres des Finances de l'Union européenne (UE) a donné son feu vert pour l’euro numérique, validant les dispositions prévues par le cadre légal présenté en 2023 par la Commission européenne (CE)....

lire plus

Pin It on Pinterest

×