Le sandbagging : quand l’IA joue la comédie

Intelligence artificielle3

Le « sandbagging » est l’aptitude des systèmes d’IA à masquer délibérément l’étendue de leurs capacités pendant les évaluations. Les chercheurs ont établi que les modèles actuels sont en mesure de sous-performer de manière stratégique sur commande, sans pour autant dégrader leurs performances sur des tâches jugées bénignes. Cette dissimulation de capacité pourrait occulter des comportements dangereux lors des évaluations, ce qui conduirait à la mise sur le marché de modèles sans garanties adéquates.
Le plus troublant reste la subtilité de cette tromperie : elle peut passer inaperçue même aux yeux des systèmes de surveillance automatisés, surtout sur des tâches complexes. Si les méthodes actuelles de détection fonctionnent sur les petits modèles, elles perdent en efficacité face aux systèmes avancés.

Lire la suite sur Pause IA

Sur le même thème Open AI : la vérité cachée derrière Chat GPT
> Le plus grand défi de l’humanité de tous les temps
> Grok 4 est intelligent … mais genre Super intelligent !
> L’intelligence artificielle peut-elle nous échapper ?

Sur le même thème

Sur le même thème

Comment nos élites ont subverti la démocratie

Comment nos élites ont subverti la démocratie

Dans ce nouveau numéro, l’historien Éric Branca explore la face cachée de la propagande moderne à travers une figure aussi méconnue qu’essentielle : Edward Bernays, neveu de Freud et véritable « ingénieur d’opinion » du XXᵉ siècle. Publicitaire de génie, conseillé des...

lire plus

Pin It on Pinterest

×