Le sandbagging : quand l’IA joue la comédie

Intelligence artificielle3

Le « sandbagging » est l’aptitude des systèmes d’IA à masquer délibérément l’étendue de leurs capacités pendant les évaluations. Les chercheurs ont établi que les modèles actuels sont en mesure de sous-performer de manière stratégique sur commande, sans pour autant dégrader leurs performances sur des tâches jugées bénignes. Cette dissimulation de capacité pourrait occulter des comportements dangereux lors des évaluations, ce qui conduirait à la mise sur le marché de modèles sans garanties adéquates.
Le plus troublant reste la subtilité de cette tromperie : elle peut passer inaperçue même aux yeux des systèmes de surveillance automatisés, surtout sur des tâches complexes. Si les méthodes actuelles de détection fonctionnent sur les petits modèles, elles perdent en efficacité face aux systèmes avancés.

Lire la suite sur Pause IA

Sur le même thème Open AI : la vérité cachée derrière Chat GPT
> Le plus grand défi de l’humanité de tous les temps
> Grok 4 est intelligent … mais genre Super intelligent !
> L’intelligence artificielle peut-elle nous échapper ?

Sur le même thème

Sur le même thème

Le plan chinois pour dominer le monde

Le plan chinois pour dominer le monde

Le 15e Plan chinois pour dominer le monde économiquement (ou le succès d'une économie planifiée au service des intérêts d'une Nation). Aujourd'hui le monde ne se construit pas sans prendre en compte ce que fait la Chine. L'avantage de ce document, c'est qu’il est très...

lire plus
Résister à l’identité numérique

Résister à l’identité numérique

La Dr Maria Hubmer-Mogg milite activement pour la santé libre et le consentement éclairé, notamment depuis 2020-2021, lorsqu’elle exerçait en tant que médecin dans une clinique privée autrichienne. Après avoir donné une interview jugée controversée, elle...

lire plus

Pin It on Pinterest

×