Des chercheurs viennent de mettre en lumière un phénomène curieux et particulièrement inquiétant chez les grands modèles de langage : l’apprentissage subliminal. Cette découverte soulève des questions sérieuses sur l’entraînement des IA avec des données synthétiques.
Les intelligences artificielles (IA) peuvent-elles être influencées par des messages subliminaux ? C'est la question posée par un groupe de chercheurs d'Anthropic et de Truthful AI dans une étude en prépublication à lire sur Arxiv. Et la réponse est assez surprenante : des modèles de langage peuvent être influencés rien qu'avec des données a priori sans rapport.
L'étude en question est très simple. Les chercheurs ont entraîné un premier modèle de langage afin qu'il adopte un trait spécifique, par exemple une préférence pour les chouettes. Ce modèle est ensuite utilisé pour générer des séquences de nombres. Des données qui n'ont donc aucun rapport avec les chouettes. Ensuite, les chercheurs entraînent un autre modèle de langage sur ces séquences de nombres. Et contre toute attente, ce second modèle a également développé une préférence pour les chouettes.
Une transmission de biais invisible et incontrôlée
Les chercheurs ont baptisé ce phénomène « apprentissage subliminal ». Et cela ne concerne pas uniquement à des traits bénins, comme des préférences pour certains animaux. Cela vaut aussi pour l'alignement de l'IA, autrement dit pour le respect des valeurs éthiques pour la sécurité. Une IA mal alignée, qui serait donc potentiellement malveillante, pourrait transmettre ce trait à d'autres IA rien qu'à travers des données générées sans rapport apparent. Cette transmission s'effectue même lorsque les chercheurs ont tenté de filtrer les données pour en éliminer tout biais évident (par exemple en retirant le chiffre 666).
Cette découverte est particulièrement inquiétante, car les grands modèles de langage sont de plus en plus entraînés sur des données synthétiques. Elon MuskElon Musk l'avait annoncé en début d'année : l'IA est à court de connaissances humaines, une affirmation qui a trouvé écho chez d'autres entreprises qui travaillent sur l’IA. Ils compensent donc en utilisant des IA pour générer des données synthétiques qui sont ensuite utilisées pour l'entraînement des grands modèles de langage, comme ceux utilisés dans ChatGPTChatGPT, Gemini, ou Grok.
Ces données synthétiques influencent donc les chatbots d'une manière imprévisible, un problème qui pourrait devenir bien plus grave au fur et à mesure que l'humanité dépend de plus en plus de l'IA...
.png)
8 months ago
English (United States) ·
French (France) ·