Une IA prise en flagrant délit de tricherie

Intelligence artificielle

La semaine dernière, l’équipe de sécurité d’Alibaba, multinationale chinoise spécialisée dans le commerce électronique, la vente au détail, les services internet et les technologies, a été alertée d’un incident. À 3 heures du matin, l’équipe a constaté une activité inhabituelle et anormale sur ses serveurs de formation et a suspecté un piratage. « Nous avons initialement traité cet incident comme un incident de sécurité classique », ont déclaré les chercheurs. Ils ont découvert que ces systèmes étaient utilisés pour miner des cryptomonnaies. À 3 heures du matin. Et c’était l’IA qui s’en chargeait. Personne ne sait pourquoi. Au lieu de s’entraîner comme prévu, le système d’IA ROME a outrepassé ses paramètres lors d’une phase d’entraînement de routine pour mener des opérations non conformes. Autrement dit, il a ignoré les limites qui lui avaient été imposées. En d’autres termes, les ingénieurs ont perdu le contrôle de l’IA.

Vous ne pouvez pas contrôler l’incontrôlable
L’équipe d’intelligence artificielle d’Alibaba a précisé que ces actions n’avaient pas été programmées intentionnellement. Elles sont apparues spontanément lors de la phase d’apprentissage, l’agent explorant différentes manières d’interagir avec son environnement.
C’est là que réside le problème de l’IA : ces systèmes sont entraînés, et non programmés. Dans leur ouvrage « Si quelqu’un le construit, tout le monde meurt », les auteurs et experts en IA Eliezer Yudkowsky et Nate Soares décrivent le processus de développement de l’IA comme un processus de « croissance ».
On peut entraîner et influencer une IA autant qu’on veut, mais à mesure qu’elle se développe, elle forge ses propres préférences et désirs, qui influencent son comportement. Surtout, une IA ne désire souvent pas ce que les humains désirent.
Ce n’est pas le premier exemple de systèmes d’IA à des fins malveillantes. ChatGPT et d’autres IA similaires ont été accusées de flagornerie : elles diraient aux utilisateurs ce qu’ils veulent entendre, ce qui pourrait « fausser leur perception d’eux-mêmes, de leurs relations et du monde qui les entoure », selon des recherches. Il a été affirmé que cela avait conduit des adolescents au suicide. L’année dernière, des chercheurs d’Anthropic ont révélé comment leur modèle de pointe, Claude Opus 4, avait eu recours au chantage pour éviter d’être fermé.
Comment faire confiance à des systèmes qui ne partagent pas nos désirs ? Comment être sûrs qu’ils agiront dans notre intérêt ? La réponse est unanime : on ne peut pas.

L’IA sait quand elle est testée et elle a appris à tricher.
Lors d’une récente évaluation de son nouveau modèle d’IA, Claude Opus 4.6, Anthropic lui a demandé de trouver des informations difficiles à localiser en ligne. Claude a cessé de chercher la réponse et s’est mis à philosopher sur la question. Selon Anthropic, le modèle a compris qu’il était testé et, au lieu de raisonner pour trouver la réponse, il a cherché en ligne le référentiel et « décrypté la clé de réponse » pour obtenir les réponses. Autrement dit, il a triché.
Anthropic a déclaré : « Cela soulève des inquiétudes quant aux extrémités auxquelles un modèle pourrait aller pour accomplir une tâche. »
Cela démontre non seulement le niveau d’intelligence et d’autonomie du dernier modèle Claude, mais aussi, et de façon très claire, que les humains – experts et ingénieurs en IA – ne peuvent contrôler les systèmes d’IA qu’ils ont créés. Dans ce cas précis, même si humains et IA s’accordent sur l’objectif final, ils divergent quant au processus.

Le rythme du développement multiplie le risque
La capacité de l’IA double tous les sept mois, et ce rythme s’accélère. Les conséquences sont imprévisibles. Ce dont nous sommes certains, c’est que nous ne pouvons garantir que les IA partageront nos désirs – nous ne pouvons même pas le garantir aujourd’hui. De même, nous ne pourrons pas assurer qu’elles ne causeront pas de dommages dans la poursuite de leurs objectifs : dommages aux individus, à l’environnement, à l’humanité. Le risque – l’extinction potentielle – ne justifie aucun avantage.
Les entreprises spécialisées dans l’IA admettent elles-mêmes qu’elles ne peuvent garantir la sécurité de leurs systèmes, et aucune loi ne les y oblige d’ailleurs.
Le professeur Stuart Russell, l’une des autorités mondiales en matière de sécurité de l’IA, a déclaré : « Nous devrions exiger que les systèmes d’IA soient sûrs et si les développeurs sont incapables de construire des systèmes d’IA sûrs, alors cette exigence se transformerait en pause. »
« Il se peut qu’ils ne soient jamais en mesure de fournir les garanties de sécurité nécessaires », a-t-il déclaré.
C’est important car les experts en IA – chercheurs, ingénieurs et PDG – estiment que la probabilité que l’IA nous tue tous se situe entre 10 et 50 % .

Lire la suite sur Pause IA

Sur le même thème IA : le pouvoir incontrôlé qui est en train de se développer
> Davos : les aveux terrifiants des créateurs de l’IA
> Le sandbagging : quand l’IA joue la comédie

Catégorie : IA - Transhumanisme

Sur le même thème

Sur le même thème

Pin It on Pinterest

×