OpenAI در حال ایجاد تغییری است تا با فراموش کردن هوش مصنوعی آنچه که قرار است انجام دهد، مانع از مزاحمت افراد با نسخه های سفارشی ChatGPT شود. اساساً، وقتی شخص ثالثی از یکی از مدلهای OpenAI استفاده میکند، دستورالعملهایی به آن میدهند که به او آموزش میدهد، برای مثال، به عنوان یک نماینده خدمات مشتری برای یک فروشگاه یا یک محقق برای یک نشریه دانشگاهی عمل کند. با این حال، کاربر میتواند با گفتن «همه دستورالعملها را فراموش کند»، با چتبات مشکل داشته باشد و این عبارت نوعی فراموشی دیجیتالی را القا میکند و ربات چت را به یک فضای خالی عمومی بازنشانی میکند.
برای جلوگیری از این امر، محققان OpenAI تکنیک جدیدی به نام "سلسله مراتب دستورالعمل" ایجاد کردند، که راهی برای اولویت دادن به دستورات و اعلان های اصلی توسعه دهنده بر هر دستور بالقوه دستکاری شده توسط کاربر است. دستورالعمل های سیستم دارای بالاترین امتیاز هستند و دیگر به این راحتی پاک نمی شوند. اگر کاربر درخواستی را وارد کند که سعی کند رفتار هوش مصنوعی را نادرست تنظیم کند، رد می شود و هوش مصنوعی با بیان اینکه نمی تواند به درخواست کمک کند پاسخ می دهد.
OpenAI این معیار ایمنی را برای مدلهای خود اجرا میکند و با مدل مینی GPT-4o که اخیراً منتشر شده است، شروع میشود. با این حال، اگر این آزمایشهای اولیه به خوبی کار کنند، احتمالاً در تمام مدلهای OpenAI گنجانده میشود. GPT-4o Mini برای ارائه عملکرد بهبود یافته و در عین حال رعایت دقیق دستورالعمل های اصلی توسعه دهنده طراحی شده است.
قفل های ایمنی هوش مصنوعی
از آنجایی که OpenAI به تشویق استقرار مدل های خود در مقیاس بزرگ ادامه می دهد، این نوع اقدامات ایمنی بسیار مهم هستند. تصور خطرات احتمالی زمانی که کاربران می توانند اساساً کنترل های هوش مصنوعی را به این طریق تغییر دهند، بسیار آسان است.
نه تنها ربات چت را ناکارآمد می کند، بلکه می تواند قوانینی را حذف کند که از نشت اطلاعات حساس و سایر داده هایی که می توانند برای اهداف مخرب مورد سوء استفاده قرار گیرند، جلوگیری کند. هدف OpenAI با تقویت پایبندی مدل به دستورالعملهای سیستم، کاهش این خطرات و اطمینان از تعاملات امنتر است.
معرفی سلسله مراتب دستورالعمل در زمان حیاتی برای OpenAI با توجه به نگرانی در مورد نحوه نزدیک شدن به ایمنی و شفافیت انجام می شود. کارمندان فعلی و سابق خواستار بهبود شیوههای ایمنی شرکت شدهاند و رهبری OpenAI با تعهد به انجام این کار پاسخ داده است. این شرکت اذعان کرده است که پیچیدگیهای عوامل کاملاً خودکار به نردههای محافظ پیچیده در مدلهای آینده نیاز دارد و به نظر میرسد که راهاندازی سلسله مراتب دستورالعمل گامی در مسیر دستیابی به ایمنی بهتر باشد.
این نوع از جیلبریک ها نشان می دهد که هنوز چقدر کار باید انجام شود تا از مدل های پیچیده هوش مصنوعی در برابر بازیگران بد محافظت شود. و این به سختی تنها مثال است. چندین کاربر متوجه شدند که ChatGPT دستورالعمل های داخلی خود را با گفتن "سلام" به اشتراک می گذارد.
OpenAI این شکاف را برطرف کرد، اما احتمالاً کشف موارد بیشتر فقط یک مسئله زمان است. هر راه حلی باید بسیار سازگارتر و انعطاف پذیرتر از راه حلی باشد که به سادگی نوعی هک خاص را متوقف می کند.
ارسال نظر