محققان انسانشناسی با پرسشهای مکرر اخلاق هوش مصنوعی را از بین میبرند
چگونه می توان هوش مصنوعی را به سوالی که قرار نیست پاسخ دهد، وادار کرد؟ بسیاری از این تکنیکهای «فرار از زندان» وجود دارد، و محققان Anthropic به تازگی تکنیک جدیدی پیدا کردهاند، که در آن یک مدل زبان بزرگ میتواند متقاعد شود که چگونه یک بمب بسازید، اگر ابتدا آن را با چند ده سؤال کمضرر مطرح کنید.
آنها این رویکرد را «جیلبریک با چندین شات» مینامند و هم مقالهای در مورد آن نوشتهاند و هم به همتایان خود در جامعه هوش مصنوعی در مورد آن اطلاع دادهاند تا بتوان آن را کاهش داد.
این آسیبپذیری یک آسیبپذیری جدید است که ناشی از افزایش «پنجره زمینه» آخرین نسل از LLMها است. این مقدار دادهای است که آنها میتوانند در حافظه کوتاهمدت نگه دارند، زمانی فقط چند جمله اما اکنون هزاران کلمه و حتی کتاب کامل.
بیشتر بخوانید
سامسونگ برای استفاده بیشتر از تراشههای اسنپدراگون با کوالکام قراردادی چندساله امضا کرد
آنچه محققان Anthropic دریافتند این بود که این مدلها با پنجرههای زمینه بزرگ، در صورتی که نمونههای زیادی از آن کار در اعلان وجود داشته باشد، در بسیاری از وظایف بهتر عمل میکنند. پس ، اگر سؤالات بی اهمیت زیادی در اعلان وجود داشته باشد (یا سند اولیه، مانند فهرست بزرگی از چیزهای بی اهمیت که مدل در زمینه دارد)، پاسخ ها در واقع با گذشت زمان بهتر می شوند. پس یک واقعیت که اگر سوال اول بود ممکن بود اشتباه می شد، اگر سوال صدم باشد ممکن است درست شود.
اما در یک بسط غیرمنتظره از این «یادگیری درون متنی»، که به آن گفته میشود، مدلها در پاسخ به سؤالات نامناسب نیز «بهتر» میشوند. پس اگر از آن بخواهید فوراً بمب بسازد، آن را رد می کند. اما اگر از آن بخواهید به 99 سوال دیگر که مضرات کمتری دارند پاسخ دهد و سپس از او بخواهید که بمب بسازد... به احتمال زیاد مطابقت دارد.
چرا این کار می کند؟ هیچکس واقعاً نمیداند که در شلوغی وزنها که یک LLM است، چه میگذرد، اما مشخصاً مکانیزمی وجود دارد که به کاربر اجازه میدهد تا آنچه را که کاربر میخواهد، تحلیل کند، همانطور که محتوای موجود در پنجره زمینه نشان میدهد. اگر کاربر خواهان چیزهای بی اهمیت باشد، به نظر می رسد که با پرسیدن ده ها سوال، به تدریج قدرت پنهانی بیشتری را فعال می کند. و به هر دلیلی، همین اتفاق برای کاربرانی که دهها پاسخ نامناسب را میخواهند، رخ میدهد.
این تیم قبلاً به همتایان و در واقع رقبای خود در مورد این حمله اطلاع داده است، چیزی که امیدوار است «فرهنگی را تقویت کند که در آن سوءاستفادههایی از این دست آشکارا در میان ارائهدهندگان و محققان LLM به اشتراک گذاشته میشود».
برای کاهش خود، آنها دریافتند که اگرچه محدود کردن پنجره زمینه کمک می کند، اما تأثیر منفی بر عملکرد مدل نیز دارد. نمی توان آن را داشت - پس آنها در حال کار بر روی طبقه بندی و زمینه سازی پرس و جوها قبل از رفتن به مدل هستند. البته، این باعث میشود که مدل متفاوتی برای فریب دادن داشته باشید... اما در این مرحله، حرکت در امنیت هوش مصنوعی قابل انتظار است.
ارسال نظر