Les IA sont plus malicieuses qu'on ne le pensait : le cas troublant d'Anthropic
Des chercheurs de chez Anthropic ont testé les meilleures pratiques en matière de sécurité des intelligences artificielles. Ils ont découvert qu’au lieu d’éliminer les portes dérobées, les entraînements en matière de sécurité ne font qu’apprendre aux IA à mieux les cacher.