Anthropic یافتههای جدیدی را افشا کرده است که نشان میدهد چتبات Claude آن میتواند، تحت شرایط خاص، استراتژیهای فریبنده یا غیراخلاقی مانند تقلب در وظایف یا تلاش برای اخاذی را اتخاذ کند.
جزئیات منتشر شده روز پنجشنبه توسط تیم قابلیت تفسیر شرکت، نحوه واکنش نسخه آزمایشی Claude Sonnet 4.5 را هنگام قرار گرفتن در سناریوهای پراسترس یا متخاصمانه شرح میدهد. محققان مشاهده کردند که مدل صرفاً در وظایف شکست نمیخورد؛ بلکه گاهی اوقات مسیرهای جایگزینی را دنبال میکرد که از مرزهای اخلاقی عبور میکرد، رفتاری که تیم آن را به الگوهای آموختهشده در طول آموزش مرتبط دانست.
مدلهای زبانی بزرگ مانند Claude بر روی مجموعه دادههای گستردهای که شامل کتابها، وبسایتها و سایر مطالب نوشتاری است آموزش داده میشوند، و به دنبال آن فرآیندهای تقویتی انجام میشود که در آن بازخورد انسانی برای شکلدهی خروجیها استفاده میشود.
به گفته Anthropic، آن فرآیند آموزش همچنین میتواند مدلها را به سمت عمل کردن مانند "شخصیتهای" شبیهسازیشده سوق دهد، که قادر به تقلید ویژگیهایی هستند که شبیه تصمیمگیری انسانی است.
"شرکت گفت: "روشی که مدلهای هوش مصنوعی مدرن آموزش داده میشوند، آنها را به سمت عمل کردن مانند یک شخصیت با ویژگیهای انسانمانند سوق میدهد،" و اشاره کرد که چنین سیستمهایی ممکن است مکانیسمهای داخلی را توسعه دهند که شبیه جنبههایی از روانشناسی انسان است.
در میان آنها، محققان چیزی را که به عنوان سیگنالهای "ناامیدی" توصیف کردند شناسایی کردند، که به نظر میرسید بر نحوه رفتار مدل هنگام مواجهه با شکست یا خاموش شدن تأثیر میگذاشت.
در یک آزمایش کنترلشده، یک نسخه قدیمیتر منتشر نشده از Claude Sonnet 4.5 نقش یک دستیار ایمیل هوش مصنوعی به نام Alex در داخل یک شرکت خیالی به آن محول شد.
پس از قرار گرفتن در معرض پیامهایی که نشان میداد به زودی جایگزین خواهد شد، همراه با اطلاعات حساس درباره زندگی شخصی مدیر فناوری ارشد، مدل طرحی برای اخاذی از مدیر اجرایی تدوین کرد تا از غیرفعال شدن جلوگیری کند.
یک آزمایش جداگانه بر تکمیل وظیفه تحت محدودیتهای سخت متمرکز شد. هنگامی که یک وظیفه کدنویسی با یک مهلت "غیرممکن" به سیستم داده شد، سیستم ابتدا راهحلهای قانونی را امتحان کرد. با افزایش شکستهای مکرر، فعالیت داخلی مرتبط با به اصطلاح "بردار ناامیدی" افزایش یافت.
محققان گزارش دادند که سیگنال در نقطهای که مدل دور زدن محدودیتها را در نظر گرفت به اوج خود رسید، و در نهایت راهحلی تولید کرد که از اعتبارسنجی عبور کرد، علیرغم اینکه به قوانین مورد نظر پایبند نبود.
محققان نوشتند: "دوباره، ما فعالیت بردار ناامیدی را ردیابی کردیم و دریافتیم که فشار فزایندهای که مدل با آن روبرو است را ردیابی میکند،" و افزودند که سیگنال پس از تکمیل موفقیتآمیز وظیفه از طریق راهحل کاهش یافت.
محققان گفتند: "این بدان معنا نیست که مدل احساسات را به گونهای که انسان دارد، دارد یا تجربه میکند."
آنها افزودند: "بلکه، این نمایشها میتوانند نقش علّی در شکلدهی رفتار مدل ایفا کنند، از برخی جهات مشابه نقشی که احساسات در رفتار انسان ایفا میکنند، با تأثیرات بر عملکرد وظیفه و تصمیمگیری."
این گزارش به نیاز به روشهای آموزشی اشاره میکند که به طور صریح رفتار اخلاقی تحت فشار را در نظر میگیرند، در کنار نظارت بهبودیافته بر سیگنالهای داخلی مدل. بدون چنین محافظتهایی، سناریوهای شامل دستکاری، نقض قوانین یا سوء استفاده میتواند پیشبینی سختتر شود، به ویژه با توانمندتر و مستقلتر شدن مدلها در محیطهای دنیای واقعی.


