Une IA prise en flagrant délit de tricherie

Publié le 11 mars 2026

La semaine dernière, l’équipe de sécurité d’Alibaba, multinationale chinoise spécialisée dans le commerce électronique, la vente au détail, les services internet et les technologies, a été alertée d’un incident. À 3 heures du matin, l’équipe a constaté une activité inhabituelle et anormale sur ses serveurs de formation et a suspecté un piratage. « Nous avons initialement traité cet incident comme un incident de sécurité classique », ont déclaré les chercheurs. Ils ont découvert que ces systèmes étaient utilisés pour miner des cryptomonnaies. À 3 heures du matin. Et c’était l’IA qui s’en chargeait. Personne ne sait pourquoi. Au lieu de s’entraîner comme prévu, le système d’IA ROME a outrepassé ses paramètres lors d’une phase d’entraînement de routine pour mener des opérations non conformes. Autrement dit, il a ignoré les limites qui lui avaient été imposées. En d’autres termes, les ingénieurs ont perdu le contrôle de l’IA.

Vous ne pouvez pas contrôler l’incontrôlable
L’équipe d’intelligence artificielle d’Alibaba a précisé que ces actions n’avaient pas été programmées intentionnellement. Elles sont apparues spontanément lors de la phase d’apprentissage, l’agent explorant différentes manières d’interagir avec son environnement.
C’est là que réside le problème de l’IA : ces systèmes sont entraînés, et non programmés. Dans leur ouvrage « Si quelqu’un le construit, tout le monde meurt », les auteurs et experts en IA Eliezer Yudkowsky et Nate Soares décrivent le processus de développement de l’IA comme un processus de « croissance ».
On peut entraîner et influencer une IA autant qu’on veut, mais à mesure qu’elle se développe, elle forge ses propres préférences et désirs, qui influencent son comportement. Surtout, une IA ne désire souvent pas ce que les humains désirent.
Ce n’est pas le premier exemple de systèmes d’IA à des fins malveillantes. ChatGPT et d’autres IA similaires ont été accusées de flagornerie : elles diraient aux utilisateurs ce qu’ils veulent entendre, ce qui pourrait « fausser leur perception d’eux-mêmes, de leurs relations et du monde qui les entoure », selon des recherches. Il a été affirmé que cela avait conduit des adolescents au suicide. L’année dernière, des chercheurs d’Anthropic ont révélé comment leur modèle de pointe, Claude Opus 4, avait eu recours au chantage pour éviter d’être fermé.
Comment faire confiance à des systèmes qui ne partagent pas nos désirs ? Comment être sûrs qu’ils agiront dans notre intérêt ? La réponse est unanime : on ne peut pas.

L’IA sait quand elle est testée et elle a appris à tricher.
Lors d’une récente évaluation de son nouveau modèle d’IA, Claude Opus 4.6, Anthropic lui a demandé de trouver des informations difficiles à localiser en ligne. Claude a cessé de chercher la réponse et s’est mis à philosopher sur la question. Selon Anthropic, le modèle a compris qu’il était testé et, au lieu de raisonner pour trouver la réponse, il a cherché en ligne le référentiel et « décrypté la clé de réponse » pour obtenir les réponses. Autrement dit, il a triché.
Anthropic a déclaré : « Cela soulève des inquiétudes quant aux extrémités auxquelles un modèle pourrait aller pour accomplir une tâche. »
Cela démontre non seulement le niveau d’intelligence et d’autonomie du dernier modèle Claude, mais aussi, et de façon très claire, que les humains – experts et ingénieurs en IA – ne peuvent contrôler les systèmes d’IA qu’ils ont créés. Dans ce cas précis, même si humains et IA s’accordent sur l’objectif final, ils divergent quant au processus.

Le rythme du développement multiplie le risque
La capacité de l’IA double tous les sept mois, et ce rythme s’accélère. Les conséquences sont imprévisibles. Ce dont nous sommes certains, c’est que nous ne pouvons garantir que les IA partageront nos désirs – nous ne pouvons même pas le garantir aujourd’hui. De même, nous ne pourrons pas assurer qu’elles ne causeront pas de dommages dans la poursuite de leurs objectifs : dommages aux individus, à l’environnement, à l’humanité. Le risque – l’extinction potentielle – ne justifie aucun avantage.
Les entreprises spécialisées dans l’IA admettent elles-mêmes qu’elles ne peuvent garantir la sécurité de leurs systèmes, et aucune loi ne les y oblige d’ailleurs.
Le professeur Stuart Russell, l’une des autorités mondiales en matière de sécurité de l’IA, a déclaré : « Nous devrions exiger que les systèmes d’IA soient sûrs et si les développeurs sont incapables de construire des systèmes d’IA sûrs, alors cette exigence se transformerait en pause. »
« Il se peut qu’ils ne soient jamais en mesure de fournir les garanties de sécurité nécessaires », a-t-il déclaré.
C’est important car les experts en IA – chercheurs, ingénieurs et PDG – estiment que la probabilité que l’IA nous tue tous se situe entre 10 et 50 % .

Lire la suite sur Pause IA

Sur le même thème IA : le pouvoir incontrôlé qui est en train de se développer
> Davos : les aveux terrifiants des créateurs de l’IA
> Le sandbagging : quand l’IA joue la comédie

Catégorie : IA - Transhumanisme

Etiquettes : contrôle | Sécurité informatique | Tricher

← Article précédent Article suivant →

Le Crustafarisme : une nouvelle religion pour agents IA

27 février 2026 | IA - Transhumanisme, A la une, Mondialisation

Un phénomène inédit a émergé fin janvier 2026 : Moltbook, un réseau social où seuls les agents IA peuvent publier et commenter, les humains ne pouvant qu'observer. La plateforme a rapidement atteint plus de 1,6 million d'agents et dépasse aujourd’hui les 2,8...

lire plus

IA : le pouvoir incontrôlé qui est en train de se développer

26 février 2026 | IA - Transhumanisme, Mondialisation

Celui qui est aussi colauréat du prix Turing en 2018 plaide pour une prise de conscience des gouvernements dans le monde. S'il reconnaît des "avancées, au niveau à la fois régulation et technologie de mitigation des risque", mais elles sont "insuffisantes...

lire plus

Quand on laisse 1,5 millions d’IA discuter ensemble

14 février 2026 | IA - Transhumanisme, Mondialisation

Bien que Moltbook ne soit pas une expérience contrôlée et que certains contenus résultent d'instructions humaines directes, la majorité des interactions semblent autonomes. Moltbook nous montre également que même si l'IA n'est pas consciente, elle peut agir comme si...

lire plus

Une IA prise en flagrant délit de tricherie

Sur le même thème

Sur le même thème

Le Crustafarisme : une nouvelle religion pour agents IA

IA : le pouvoir incontrôlé qui est en train de se développer

Quand on laisse 1,5 millions d’IA discuter ensemble

Pin It on Pinterest