متن خبر

محققان انسان‌شناسی با پرسش‌های مکرر اخلاق هوش مصنوعی را از بین می‌برند

محققان انسان‌شناسی با پرسش‌های مکرر اخلاق هوش مصنوعی را از بین می‌برند

شناسهٔ خبر: 461782 -




چگونه می توان هوش مصنوعی را به سوالی که قرار نیست پاسخ دهد، وادار کرد؟ بسیاری از این تکنیک‌های «فرار از زندان» وجود دارد، و محققان Anthropic به تازگی تکنیک جدیدی پیدا کرده‌اند، که در آن یک مدل زبان بزرگ می‌تواند متقاعد شود که چگونه یک بمب بسازید، اگر ابتدا آن را با چند ده سؤال کم‌ضرر مطرح کنید.

آن‌ها این رویکرد را «جیل‌بریک با چندین شات» می‌نامند و هم مقاله‌ای در مورد آن نوشته‌اند و هم به همتایان خود در جامعه هوش مصنوعی در مورد آن اطلاع داده‌اند تا بتوان آن را کاهش داد.

این آسیب‌پذیری یک آسیب‌پذیری جدید است که ناشی از افزایش «پنجره زمینه» آخرین نسل از LLMها است. این مقدار داده‌ای است که آنها می‌توانند در حافظه کوتاه‌مدت نگه دارند، زمانی فقط چند جمله اما اکنون هزاران کلمه و حتی کتاب کامل.

آنچه محققان Anthropic دریافتند این بود که این مدل‌ها با پنجره‌های زمینه بزرگ، در صورتی که نمونه‌های زیادی از آن کار در اعلان وجود داشته باشد، در بسیاری از وظایف بهتر عمل می‌کنند. پس ، اگر سؤالات بی اهمیت زیادی در اعلان وجود داشته باشد (یا سند اولیه، مانند فهرست بزرگی از چیزهای بی اهمیت که مدل در زمینه دارد)، پاسخ ها در واقع با گذشت زمان بهتر می شوند. پس یک واقعیت که اگر سوال اول بود ممکن بود اشتباه می شد، اگر سوال صدم باشد ممکن است درست شود.

اما در یک بسط غیرمنتظره از این «یادگیری درون متنی»، که به آن گفته می‌شود، مدل‌ها در پاسخ به سؤالات نامناسب نیز «بهتر» می‌شوند. پس اگر از آن بخواهید فوراً بمب بسازد، آن را رد می کند. اما اگر از آن بخواهید به 99 سوال دیگر که مضرات کمتری دارند پاسخ دهد و سپس از او بخواهید که بمب بسازد... به احتمال زیاد مطابقت دارد.

اعتبار تصویر: Anthropic

چرا این کار می کند؟ هیچ‌کس واقعاً نمی‌داند که در شلوغی وزن‌ها که یک LLM است، چه می‌گذرد، اما مشخصاً مکانیزمی وجود دارد که به کاربر اجازه می‌دهد تا آنچه را که کاربر می‌خواهد، تحلیل کند، همانطور که محتوای موجود در پنجره زمینه نشان می‌دهد. اگر کاربر خواهان چیزهای بی اهمیت باشد، به نظر می رسد که با پرسیدن ده ها سوال، به تدریج قدرت پنهانی بیشتری را فعال می کند. و به هر دلیلی، همین اتفاق برای کاربرانی که ده‌ها پاسخ نامناسب را می‌خواهند، رخ می‌دهد.

این تیم قبلاً به همتایان و در واقع رقبای خود در مورد این حمله اطلاع داده است، چیزی که امیدوار است «فرهنگی را تقویت کند که در آن سوءاستفاده‌هایی از این دست آشکارا در میان ارائه‌دهندگان و محققان LLM به اشتراک گذاشته می‌شود».

برای کاهش خود، آنها دریافتند که اگرچه محدود کردن پنجره زمینه کمک می کند، اما تأثیر منفی بر عملکرد مدل نیز دارد. نمی توان آن را داشت - پس آنها در حال کار بر روی طبقه بندی و زمینه سازی پرس و جوها قبل از رفتن به مدل هستند. البته، این باعث می‌شود که مدل متفاوتی برای فریب دادن داشته باشید... اما در این مرحله، حرکت در امنیت هوش مصنوعی قابل انتظار است.

خبرکاو

ارسال نظر




تبليغات ايهنا تبليغات ايهنا

تمامی حقوق مادی و معنوی این سایت متعلق به خبرکاو است و استفاده از مطالب با ذکر منبع بلامانع است