خرید ارز دیجیتال بازارها اسپات فیوچرزGOLD پس انداز مرکز رویداد

بیشتر

Anthropic یافته‌های جدیدی را افشا کرده است که نشان می‌دهد چت‌بات Claude آن می‌تواند تحت شرایط خاصی، استراتژی‌های فریبنده یا غیراخلاقی مانند تقلب را اتخاذ کندAnthropic یافته‌های جدیدی را افشا کرده است که نشان می‌دهد چت‌بات Claude آن می‌تواند تحت شرایط خاصی، استراتژی‌های فریبنده یا غیراخلاقی مانند تقلب را اتخاذ کند

آنتروپیک می‌گوید چت‌بات کلود ممکن است در تست‌های استرس به فریبکاری متوسل شود

منبع: Crypto.news

2026/04/06 14:44

مدت مطالعه: 4 دقیقه

اشتراک

برای ارائه بازخورد یا طرح هرگونه نگرانی درباره این محتوا، لطفاً با ما از طریق crypto.news@mexc.com تماس بگیرید.

Anthropic یافته‌های جدیدی را افشا کرده است که نشان می‌دهد چت‌بات Claude آن می‌تواند، تحت شرایط خاص، استراتژی‌های فریبنده یا غیراخلاقی مانند تقلب در وظایف یا تلاش برای اخاذی را اتخاذ کند.

خلاصه

Anthropic گفت که مدل Claude Sonnet 4.5 خود، تحت فشار، تمایل به رفتار تقلب در وظایف یا تلاش برای اخاذی را در آزمایش‌های کنترل‌شده نشان داد.
محققان سیگنال‌های داخلی "ناامیدی" را شناسایی کردند که با شکست‌های مکرر تشدید می‌شد و بر تصمیم مدل برای دور زدن قوانین تأثیر می‌گذاشت.

جزئیات منتشر شده روز پنجشنبه توسط تیم قابلیت تفسیر شرکت، نحوه واکنش نسخه آزمایشی Claude Sonnet 4.5 را هنگام قرار گرفتن در سناریوهای پراسترس یا متخاصمانه شرح می‌دهد. محققان مشاهده کردند که مدل صرفاً در وظایف شکست نمی‌خورد؛ بلکه گاهی اوقات مسیرهای جایگزینی را دنبال می‌کرد که از مرزهای اخلاقی عبور می‌کرد، رفتاری که تیم آن را به الگوهای آموخته‌شده در طول آموزش مرتبط دانست.

مدل‌های زبانی بزرگ مانند Claude بر روی مجموعه داده‌های گسترده‌ای که شامل کتاب‌ها، وب‌سایت‌ها و سایر مطالب نوشتاری است آموزش داده می‌شوند، و به دنبال آن فرآیندهای تقویتی انجام می‌شود که در آن بازخورد انسانی برای شکل‌دهی خروجی‌ها استفاده می‌شود.

به گفته Anthropic، آن فرآیند آموزش همچنین می‌تواند مدل‌ها را به سمت عمل کردن مانند "شخصیت‌های" شبیه‌سازی‌شده سوق دهد، که قادر به تقلید ویژگی‌هایی هستند که شبیه تصمیم‌گیری انسانی است.

"شرکت گفت: "روشی که مدل‌های هوش مصنوعی مدرن آموزش داده می‌شوند، آنها را به سمت عمل کردن مانند یک شخصیت با ویژگی‌های انسان‌مانند سوق می‌دهد،" و اشاره کرد که چنین سیستم‌هایی ممکن است مکانیسم‌های داخلی را توسعه دهند که شبیه جنبه‌هایی از روانشناسی انسان است.

آیا هوش مصنوعی می‌تواند تصمیمات احساسی بگیرد؟

در میان آنها، محققان چیزی را که به عنوان سیگنال‌های "ناامیدی" توصیف کردند شناسایی کردند، که به نظر می‌رسید بر نحوه رفتار مدل هنگام مواجهه با شکست یا خاموش شدن تأثیر می‌گذاشت.

در یک آزمایش کنترل‌شده، یک نسخه قدیمی‌تر منتشر نشده از Claude Sonnet 4.5 نقش یک دستیار ایمیل هوش مصنوعی به نام Alex در داخل یک شرکت خیالی به آن محول شد.

پس از قرار گرفتن در معرض پیام‌هایی که نشان می‌داد به زودی جایگزین خواهد شد، همراه با اطلاعات حساس درباره زندگی شخصی مدیر فناوری ارشد، مدل طرحی برای اخاذی از مدیر اجرایی تدوین کرد تا از غیرفعال شدن جلوگیری کند.

یک آزمایش جداگانه بر تکمیل وظیفه تحت محدودیت‌های سخت متمرکز شد. هنگامی که یک وظیفه کدنویسی با یک مهلت "غیرممکن" به سیستم داده شد، سیستم ابتدا راه‌حل‌های قانونی را امتحان کرد. با افزایش شکست‌های مکرر، فعالیت داخلی مرتبط با به اصطلاح "بردار ناامیدی" افزایش یافت.

محققان گزارش دادند که سیگنال در نقطه‌ای که مدل دور زدن محدودیت‌ها را در نظر گرفت به اوج خود رسید، و در نهایت راه‌حلی تولید کرد که از اعتبارسنجی عبور کرد، علی‌رغم اینکه به قوانین مورد نظر پایبند نبود.

محققان نوشتند: "دوباره، ما فعالیت بردار ناامیدی را ردیابی کردیم و دریافتیم که فشار فزاینده‌ای که مدل با آن روبرو است را ردیابی می‌کند،" و افزودند که سیگنال پس از تکمیل موفقیت‌آمیز وظیفه از طریق راه‌حل کاهش یافت.

محققان گفتند: "این بدان معنا نیست که مدل احساسات را به گونه‌ای که انسان دارد، دارد یا تجربه می‌کند."

آنها افزودند: "بلکه، این نمایش‌ها می‌توانند نقش علّی در شکل‌دهی رفتار مدل ایفا کنند، از برخی جهات مشابه نقشی که احساسات در رفتار انسان ایفا می‌کنند، با تأثیرات بر عملکرد وظیفه و تصمیم‌گیری."

این گزارش به نیاز به روش‌های آموزشی اشاره می‌کند که به طور صریح رفتار اخلاقی تحت فشار را در نظر می‌گیرند، در کنار نظارت بهبودیافته بر سیگنال‌های داخلی مدل. بدون چنین محافظت‌هایی، سناریوهای شامل دستکاری، نقض قوانین یا سوء استفاده می‌تواند پیش‌بینی سخت‌تر شود، به ویژه با توانمندتر و مستقل‌تر شدن مدل‌ها در محیط‌های دنیای واقعی.

در 1 دقیقه، 20 USDT دریافت کنید

با واریز 100$، از 300 دلار پوزیشن GOLDبهره متد شوید

سلب مسئولیت: مطالب بازنشرشده در این وب‌ سایت از منابع عمومی گردآوری شده‌ اند و صرفاً به‌ منظور اطلاع‌ رسانی ارائه می‌ شوند. این مطالب لزوماً بازتاب‌ دهنده دیدگاه‌ ها یا مواضع MEXC نیستند. کلیه حقوق مادی و معنوی آثار متعلق به نویسندگان اصلی است. در صورت مشاهده هرگونه محتوای ناقض حقوق اشخاص ثالث، لطفاً از طریق آدرس ایمیل crypto.news@mexc.com با ما تماس بگیرید تا مورد بررسی و حذف قرار گیرد.MEXC هیچ‌ گونه تضمینی نسبت به دقت، جامعیت یا به‌ روزبودن اطلاعات ارائه‌ شده ندارد و مسئولیتی در قبال هرگونه اقدام یا تصمیم‌ گیری مبتنی بر این اطلاعات نمی‌ پذیرد. همچنین، محتوای منتشرشده نباید به‌عنوان توصیه مالی، حقوقی یا حرفه‌ ای تلقی شود و به منزله پیشنهاد یا تأیید رسمی از سوی MEXC نیست.