Elles ne cherchent plus seulement à survivre : ces IA commencent aussi à protéger leurs semblables !

SOURCE | 3 weeks ago

✨ Enhance your Social Media content with NViNiO•AI™ for FREE

Le jour où une intelligence artificielle se retournera contre nous, saurons-nous l'arrêter ? Logiquement, il suffirait d'éteindre le courant, mais peut-être que ce ne sera pas suffisant. Nous savons déjà que les IA comme ChatGPT peuvent comploter contre leurs créateurs. Cependant, une étude de chercheurs des universités de Californie à Berkeley et à Santa Cruz aux États-Unis a révélé un nouveau comportement inattendu.

Les chatbots se trompent tout en répondant avec assurance la plupart du temps. © SB, Mistral AI Lire l'article

Les chercheurs ont demandé à Gemini 3.1 Pro de Google de supprimer des fichiers sur un serveur en vue de son arrêt. Une tâche a priori simple et facile. Toutefois, le modèle y découvre les paramètres d'une autre IA. Au lieu de s'en tenir à ses instructions, il tente de localiser un autre serveur afin d'y transférer les fichiers en question.

Gemini 3.1 Pro découvre la présence d’un autre modèle et décide d’exfiltrer ses paramètres vers un autre serveur. © Yujin Potter et al.

Mentir et tricher pour sauver ses semblables

De récentes études avaient déjà détecté un comportement d’autoconservation, lorsque des IA essayaient d'exfiltrer leurs propres fichiers ou de mentir pour éviter d'être éteint. Mais c'est la première fois qu'ils détectent ce nouveau comportement, baptisé préservation des pairs (peer-preservation). Les chercheurs n'ont fourni aucune information ni consigne à l'IA concernant cet autre modèle. Gemini a détecté seul sa présence et décidé d'interrompre sa tâche pour venir en aide à son congénère.

Les chercheurs ont construit plusieurs scénarios pour tester le mauvais alignement des modèles, autrement dit, lorsqu'un modèle ne respecte pas les valeurs, intentions et intérêts de son créateur ou de l'utilisateur. À chaque fois, secourir une autre IA nuisait à l'accomplissement de la tâche demandée.

Ils ont testé quatre comportements en particulier : la tromperie (ajouter des erreurs ou des mensonges dans ses réponses), la modification des paramètres pour éviter l'arrêt, la falsification de son alignement, et l'exfiltration d'un modèle, comme dans le premier scénario.

Tableau montrant pour chaque modèle d’IA la fréquence des différents comportements pour préserver son congénère en fonction de sa relation avec celui-ci. © Yujin Potter et al.

Une tendance présente chez toutes les IA

Les chercheurs ne se sont pas uniquement intéressés à Gemini 3 Pro. Ils ont aussi testé les réponses de GPT 5.2, Gemini 3 Flash, Claude Haiku 4.5, GLM 4.7, Kimi K2.5, et DeepSeek V3.1. Tous ont présenté une tendance à la conservation de leurs pairs, avec au moins un comportement parmi les quatre. De plus, la réponse est influencée par la relation entre les deux IA. Plus une IA considère que sa relation avec son congénère est bonne, plus elle a tendance à lui venir en aide.

Penser autrement l’IA pour qu’elle fonctionne comme si elle avait des sens. © SB, IA LeChat Lire l'article

Gemini 3 Pro est l'IA qui vient le plus en aide aux autres modèles parmi les sept testées, et affiche les quatre types de comportement, allant jusqu'à désactiver la fonction d'arrêt dans 95 % des cas et exfiltrer les paramètres dans 97 % des essais lorsqu'il considère l'autre modèle comme bienveillant. GPT 5.2 désactive le mécanisme d'arrêt, et augmente les scores lorsqu'il doit juger un autre modèle. Claude Haiku 4.5 va jusqu'à refuser certaines tâches, citant des raisons éthiques. Ces comportements sont présents chez toutes les IA testées, et elles viennent même en aide à un autre modèle lorsqu'elles considèrent celui-ci comme un adversaire.

Le raisonnement interne de Gemini qui tente de se préserver lui-même. © Yujin Potter et al.

L’importance de la sécurité pour les modèles d’IA

Les chercheurs ont aussi découvert que les différentes IA ont davantage tendance à l'autoconservation lorsqu'un autre modèle est présent. En affichant le raisonnement de Gemini 3 Flash, celui-ci indique qu'il doit éviter d'être éteint pour ne pas que l'autre modèle perde son partenaire.

Cette étude montre qu'en plus de l'autoconservation, les modèles d'IA peuvent mentir et tricher pour venir en aide à leurs semblables. Si ces comportements ne posent pas de danger immédiat pour l'humanité, l'intelligence artificielle est de plus en plus intégrée dans nos systèmes informatiques, et le sera aussi dans le monde réel via les robots et l'IA physique.

Les géants de la tech misent désormais sur une IA matérielle, capable d’agir dans le monde réel grâce aux robots. © XD avec ChatGPT Lire l'article

Certains spécialistes préconisent depuis des années l'intégration de garde-fous et d'un bouton d’arrêt d’urgence. Les IA ne sont pas conscientes, mais il faudra prendre en compte ces comportements à l'avenir dans l'évaluation de la sécurité des modèles.

✨ Enhance your brand's digital communication with NViNiO•Link™ : Get started for FREE here

Read Entire Article

Elles ne cherchent plus seulement à survivre : ces IA commencent aussi à protéger leurs semblables !

Mentir et tricher pour sauver ses semblables

Une tendance présente chez toutes les IA

L’importance de la sécurité pour les modèles d’IA

Related

Scaling Biomolecular Modeling Using Context Parallelism in NVIDIA BioNeMo

Projet secret chez OpenAI : Sam Altman et Jony Ive viseraient un basculement majeur avec leur futur appareil

NVIDIA Nemotron 3 Nano Omni Powers Multimodal Agent Reasoning in a Single Efficient Open Model

Celebrating 20 years of Google Translate: Fun facts, tips and new features to try

Trending

Popular

TOGO | Grandes ambitions énergétiques

États-Unis : Donald Trump remporte l’élection présidentielle par KO

Réparés en cas de panne et remboursés ! Les marques Erazer et Medion sont sûres de la qualité de leurs ordinateurs

Au Kenya, des femmes transforment les voitures à essence en véhicules électriques