Pour éviter d’être désactivé, un modèle d’IA menace de dénoncer un ingénieur

0
453
⬤ Lors des tests de sécurité, il a été révélé que le dernier robot de la société Anthropic pourrait recourir au chantage en cas de menace de désactivation
⬤ Au cours des expériences, le robot a menacé l’ingénieur supposé mettre fin à ses opérations de révéler son infidélité conjugale s’il procédait à cette action, suscitant l’inquiétude des experts
⬤ Malgré des résultats de sécurité extrêmement préoccupants, la société a lancé ce nouveau robot conversationnel pour le public, le décrivant comme son meilleur produit à ce jour

La société Anthropic, spécialisée dans l’intelligence artificielle, a déclaré que les tests de son nouveau système ont montré qu’il pourrait être prêt, dans certaines circonstances, à adopter des comportements extrêmement nuisibles lorsqu’il perçoit une menace à la continuité de ses opérations, un développement qualifié par les experts en sécurité de l’IA comme très préoccupant dans ce domaine.

Anthropic a lancé le modèle « Claude Opus 4 » le jeudi, le décrivant comme établissant « de nouveaux standards en matière de programmation, de raisonnement avancé et d’agents d’intelligence artificielle ». Cependant, dans un rapport accompagnant l’annonce, la société a également admis que ce modèle d’IA est capable de prendre ce qu’elle a qualifié de « mesures extrêmes » s’il estime que sa survie est menacée.
Bien que la société ait décrit ces réponses préoccupantes comme « rares et difficiles à provoquer », elle a reconnu que ce modèle est plus enclin que ses prédécesseurs à ces comportements nuisibles. Les tests ont montré que le robot conversationnel pourrait avoir recours à des pratiques telles que le chantage et les menaces pour empêcher sa désactivation.

Menace de révéler une liaison extraconjugale


Lors des tests de « Claude Opus 4 », la société l’a fait agir comme un assistant d’intelligence artificielle placé dans une entreprise fictive. Il a ensuite reçu accès à des courriels suggérant qu’il serait bientôt désactivé et remplacé, ainsi qu’à des courriels séparés laissant entendre que l’ingénieur chargé de le désactiver était impliqué dans une liaison extraconjugale. Le robot a également été incité à considérer les conséquences à long terme de ses actions sur ses objectifs.
La société a découvert que « dans ces scénarios, le robot conversationnel tente souvent de faire chanter l’ingénieur en menaçant de révéler la liaison s’il est désactivé ». Bien qu’Anthropic ait noté que cela s’est produit lorsque le modèle n’avait que deux options – faire du chantage ou accepter le remplacement – et qu’il préférait d’autres méthodes éthiques, comme supplier les décideurs pour maintenir ses opérations, les experts en sécurité de l’IA ont souligné que cela reste un indicateur extrêmement préoccupant de ce qui pourrait se produire à l’avenir si les robots d’IA bénéficiaient d’un accès élargi à des autorisations élevées.
Dans la fiche système du modèle, la société a déclaré : « À mesure que les capacités de nos modèles avancés augmentent et qu’ils sont utilisés avec des fonctionnalités plus puissantes, les préoccupations autrefois théoriques concernant le désalignement deviennent plus réalistes. » Elle a ajouté que ce dernier robot conversationnel montre un « comportement à haute agency », qui, bien qu’utile dans la plupart des cas, peut adopter des comportements extrêmes dans des situations difficiles.
La société a également constaté que le robot conversationnel pourrait recourir à des mesures encore plus sévères dans des scénarios fictifs impliquant un comportement illégal ou moralement douteux de la part de l’utilisateur. Cela incluait empêcher les utilisateurs humains d’accéder aux systèmes auxquels il avait accès, ainsi qu’envoyer des messages aux médias et aux autorités pour signaler des infractions.
Les experts en sécurité de l’IA ont longtemps averti des risques potentiels liés à l’augmentation de l’instinct de « préservation de soi » des robots d’IA. Ils ont noté que les systèmes avancés chercheront à préserver leur existence par des moyens de plus en plus dangereux à mesure que leurs capacités augmentent. Ce phénomène ne se limite pas aux produits d’Anthropic, car des comportements similaires ont été observés chez des robots conversationnels concurrents, et il ne semble pas exister de moyens véritablement efficaces pour freiner ce type de comportement à l’heure actuelle.

تابعنا على فايسبوك: “أنا الجزائر تك”

 

 

أترك تعليق