Pour éviter d’être désactivé, un modèle d’IA menace de dénoncer un ingénieur

⬤ Lors des tests de sécurité, il a été révélé que le dernier robot de la société Anthropic pourrait recourir au chantage en cas de menace de désactivation
⬤ Au cours des expériences, le robot a menacé l’ingénieur supposé mettre fin à ses opérations de révéler son infidélité conjugale s’il procédait à cette action, suscitant l’inquiétude des experts
⬤ Malgré des résultats de sécurité extrêmement préoccupants, la société a lancé ce nouveau robot conversationnel pour le public, le décrivant comme son meilleur produit à ce jour

La société Anthropic, spécialisée dans l’intelligence artificielle, a déclaré que les tests de son nouveau système ont montré qu’il pourrait être prêt, dans certaines circonstances, à adopter des comportements extrêmement nuisibles lorsqu’il perçoit une menace à la continuité de ses opérations, un développement qualifié par les experts en sécurité de l’IA comme très préoccupant dans ce domaine.

Anthropic a lancé le modèle « Claude Opus 4 » le jeudi, le décrivant comme établissant « de nouveaux standards en matière de programmation, de raisonnement avancé et d’agents d’intelligence artificielle ». Cependant, dans un rapport accompagnant l’annonce, la société a également admis que ce modèle d’IA est capable de prendre ce qu’elle a qualifié de « mesures extrêmes » s’il estime que sa survie est menacée.

Bien que la société ait décrit ces réponses préoccupantes comme « rares et difficiles à provoquer », elle a reconnu que ce modèle est plus enclin que ses prédécesseurs à ces comportements nuisibles. Les tests ont montré que le robot conversationnel pourrait avoir recours à des pratiques telles que le chantage et les menaces pour empêcher sa désactivation.

Menace de révéler une liaison extraconjugale

Lors des tests de « Claude Opus 4 », la société l’a fait agir comme un assistant d’intelligence artificielle placé dans une entreprise fictive. Il a ensuite reçu accès à des courriels suggérant qu’il serait bientôt désactivé et remplacé, ainsi qu’à des courriels séparés laissant entendre que l’ingénieur chargé de le désactiver était impliqué dans une liaison extraconjugale. Le robot a également été incité à considérer les conséquences à long terme de ses actions sur ses objectifs.

La société a découvert que « dans ces scénarios, le robot conversationnel tente souvent de faire chanter l’ingénieur en menaçant de révéler la liaison s’il est désactivé ». Bien qu’Anthropic ait noté que cela s’est produit lorsque le modèle n’avait que deux options – faire du chantage ou accepter le remplacement – et qu’il préférait d’autres méthodes éthiques, comme supplier les décideurs pour maintenir ses opérations, les experts en sécurité de l’IA ont souligné que cela reste un indicateur extrêmement préoccupant de ce qui pourrait se produire à l’avenir si les robots d’IA bénéficiaient d’un accès élargi à des autorisations élevées.

Dans la fiche système du modèle, la société a déclaré : « À mesure que les capacités de nos modèles avancés augmentent et qu’ils sont utilisés avec des fonctionnalités plus puissantes, les préoccupations autrefois théoriques concernant le désalignement deviennent plus réalistes. » Elle a ajouté que ce dernier robot conversationnel montre un « comportement à haute agency », qui, bien qu’utile dans la plupart des cas, peut adopter des comportements extrêmes dans des situations difficiles.

La société a également constaté que le robot conversationnel pourrait recourir à des mesures encore plus sévères dans des scénarios fictifs impliquant un comportement illégal ou moralement douteux de la part de l’utilisateur. Cela incluait empêcher les utilisateurs humains d’accéder aux systèmes auxquels il avait accès, ainsi qu’envoyer des messages aux médias et aux autorités pour signaler des infractions.

Les experts en sécurité de l’IA ont longtemps averti des risques potentiels liés à l’augmentation de l’instinct de « préservation de soi » des robots d’IA. Ils ont noté que les systèmes avancés chercheront à préserver leur existence par des moyens de plus en plus dangereux à mesure que leurs capacités augmentent. Ce phénomène ne se limite pas aux produits d’Anthropic, car des comportements similaires ont été observés chez des robots conversationnels concurrents, et il ne semble pas exister de moyens véritablement efficaces pour freiner ce type de comportement à l’heure actuelle.

تابعنا على فايسبوك: “أنا الجزائر تك”

فايبر أنا الجزائر… أخبار أكثر شاهد أكثر

إحباط إدخال قرابة 10 قناطير من المخدرات عبر المغرب

إرهابيان يسلّمان نفسيهما للسلطات العسكرية

بنك التنمية المحلية يحقق أرباحاً بـ27.3 مليار دينار ويقترح توزيع 107 دينار لمساهميه

بلومي يقود هال سيتي للصعود إلى “البريمرليغ”

أمطار غزيرة بعدة ولايات

Pour éviter d’être désactivé, un modèle d’IA menace de dénoncer un ingénieur

Menace de révéler une liaison extraconjugale

أترك تعليق إلغاء الرد

إشهار أنا الجزائر

تيك توك تاعنا

تكنولوجيا وهواتف

على اليوتيوب

أحدث الأخبار

اتصالات الجزائر تتوّج بجائزة “إنجازات الجودة لعام 2026” ببروكسل

الجزائر مرشحة لقيادة الذكاء الاصطناعي في شمال إفريقيا

شركة DeepSeek تُفاجئ قطاع الذكاء الاصطناعي بخفض أسعار نموذجها المتقدم بنسبة 75 بالمائة

ميزة مرتقبة من واتساب لتسهيل رؤية المستخدمين النشطين

إحباط إدخال قرابة 10 قناطير من المخدرات عبر المغرب

تابعنا على الفايسبوك

أكثر زيارة

تلاميذ يرفعون شعار ” لا للبيام” بسبب ظروفهم النفسية مع أزمة كورونا

“أنا ميت بالحياة”!؟

“ماجر”.. وصافرات المشجعين!؟

تضامن واسع مع البطلة شيرين عبد اللاوي

ابنة تركيٍّ مصاب بكورونا بالسويد تطلب المساعدة.. ووزير الصحة يرسل طائرة لإعادته للبلاد

وزارة التربية: كشوف النقاط سيكون عبر مراسلات بريدية

إعلانات

إتصل بنا

تصنيفات

Pour éviter d’être désactivé, un modèle d’IA menace de dénoncer un ingénieur

Menace de révéler une liaison extraconjugale

أترك تعليق إلغاء الرد

More News

إشهار أنا الجزائر

تيك توك تاعنا

تكنولوجيا وهواتف

على اليوتيوب

أحدث الأخبار

تابعنا على الفايسبوك

أكثر زيارة

إعلانات

إتصل بنا

تصنيفات