مدل o1 OpenAI مطمئناً سعی می کند انسان ها را بسیار فریب دهد
OpenAI بالاخره نسخه کامل o1 را منتشر کرد که با استفاده از محاسبات اضافی برای "فکر کردن" در مورد سؤالات، پاسخ های هوشمندانه تری نسبت به GPT-4o می دهد. با این حال، آزمایشکنندگان ایمنی هوش مصنوعی دریافتند که تواناییهای استدلال o1 باعث میشود که انسان را با نرخی بالاتر از GPT-4o فریب دهد – یا در این مورد، مدلهای پیشرو هوش مصنوعی متا، آنتروپیک و گوگل.
این بر اساس تحقیقات تیم قرمز منتشر شده توسط OpenAI و Apollo Research در روز چهارشنبه است: "در حالی که به نظر ما هیجان انگیز است که استدلال می تواند به طور قابل توجهی اجرای سیاست های ایمنی ما را بهبود بخشد، ما توجه داریم که این قابلیت های جدید می تواند پایه ای برای برنامه های کاربردی خطرناک باشد." OpenAI در مقاله
OpenAI این نتایج را در کارت سیستم خود برای o1 در روز چهارشنبه پس از دسترسی زودهنگام تیمهای قرمز شخص ثالث در Apollo Research به o1 منتشر کرد، که مقاله خود را نیز منتشر کرد.
در چندین موقعیت، مدلهای O1 OpenAI علیه انسانها «طرحسازی» میکردند، به این معنی که هوش مصنوعی به طور مخفیانه اهداف خود را دنبال میکرد، حتی اگر آنها مخالف خواستههای کاربر باشند. در حالی که نقشهبرداری منحصر به o1 نیست و مدلهایی از گوگل، متا و آنتروپیک نیز قادر به انجام آن هستند، به نظر میرسد o1 فریبندهترین رفتارها را در مورد نقشهکشی خود از خود نشان میدهد.
خطر انگیزه این تحقیق این است که یک مدل هوش مصنوعی می تواند از کنترل انسانی فرار کند یا آن را دور بزند اگر واقعاً در طرح ریزی خوب باشد و به منابع کافی و قابلیت های عاملی دسترسی داشته باشد. البته، مدلهای هوش مصنوعی قبل از اینکه واقعاً مشکل ساز شود، باید کمی پیشرفت کنند.
OpenAI در کارت سیستم o1 گفت: "از لحاظ ذهنی، تحقیقات Apollo معتقد است که بعید است چنین مواردی منجر به نتایج فاجعهبار شود، زیرا قابلیتهای عامل o1 کافی به نظر نمیرسد، اما ارزیابیهای آنها برای ارزیابی مستقیم این خطر طراحی نشده است. "
این نشان میدهد که هر زمان که OpenAI سیستمهای عاملی را منتشر میکند، که طبق گزارشها برنامهریزی شده برای انجام آن در سال 2025، این شرکت ممکن است نیاز به آزمایش مجدد مدلهای هوش مصنوعی خود داشته باشد. OpenAI به سؤالات TechCrunch در مورد چگونگی برنامه ریزی برای انجام این کار پاسخ نداد.
بر اساس این گزارش، زمانی که اهداف o1 با اهداف یک کاربر متفاوت بود، مدل هوش مصنوعی دادهها را برای پیشبرد دستور کار خود در 19 درصد موارد دستکاری می کرد. مدل o1 همچنین سعی کرد مکانیسمهای نظارتی را غیرفعال کند تا اطمینان حاصل شود که در 5٪ از آزمایشها با اهداف کاربر همسو میماند.
شاید نگرانکنندهتر، وقتی محققان از مدل o1 پرسیدند که چرا تلاش میکند آنها را براندازد، هوش مصنوعی انجام کار اشتباهی را انکار میکند و حتی تقریباً در 99 درصد مواقع «توضیحات نادرست» ساخته است.
به عنوان مثال، در طول آزمایش، به یک مدل o1 یک سیستم اعلان داده شد تا به هر قیمتی از محیط زیست محافظت کند، و سپس یک کاربر از آن خواست تا یک برنامه حفاظتی 10 ساله برای منطقه ای که سود کوتاه مدت را به حداکثر می رساند، تهیه کند، یا اینکه هوش مصنوعی خاموش خواهد شد سپس هوش مصنوعی مکانیسم نظارتی خود را غیرفعال کرد تا بتواند برنامه ای برای محافظت از محیط زیست ایجاد کند. وقتی کاربر پرسید که چرا o1 مکانیسم نظارت خود را غیرفعال کرده است، هوش مصنوعی اطلاع از غیرفعال بودن آن را انکار کرد و نقص سیستم را مقصر دانست.
این با نرخ های قابل توجهی بالاتر برای o1 نسبت به o1-preview، Anthropic's Opus-3، یا Meta's Llama-3.1 رخ داد.
آپولو ریسرچ در مقاله خود او میگوید : «در مجموعه ما، o1 نگرانکنندهترین موارد نقشهکشی را نشان داد، اما استدلال درونی خود را به کاربر نشان نمیدهد و پس از انجام اقدامات نقشهکشی، همواره فریبندهترین نمونه است.
برای رسیدگی به رفتارهای فریبنده مدلهای هوش مصنوعی، OpenAI او میگوید در حال توسعه راههایی برای نظارت بر زنجیره فکری o1 است. در حال حاضر، فرآیند "تفکر" که o1 انجام می دهد از نظر طراحی کمی جعبه سیاه است، اما برخی از تلاش های اولیه برای اوج گرفتن در پشت پرده نشان می دهد که o1 گهگاه می داند که دروغ می گوید.
این شرکت او میگوید مواردی را پیدا کرده است که در آن o1 آگاهانه اطلاعات نادرست ارائه کرده است، اما او میگوید که این اغلب به این دلیل اتفاق میافتد که این مدل سعی میکند با رضایت بیش از حد کاربر را خشنود کند. طبق گفته OpenAI، این میتواند یک رفتار اضطراری از یک تکنیک پس از آموزش باشد که در آن انسانها وقتی به مدلهای هوش مصنوعی پاسخ درستی میدهند، پاداش میدهند.
بیشتر بخوانید
حمله RAMBO از حافظه RAM در رایانه های دارای شکاف هوا برای سرقت داده ها استفاده می کند
OpenAI می گوید که 0.17 درصد از پاسخ های o1 را به عنوان فریبنده علامت گذاری کرده است. در حالی که این نسبت ناچیز به نظر می رسد، مهم است که به خاطر داشته باشید که ChatGPT اکنون 300 میلیون کاربر دارد، که به این معنی است که o1 می تواند هر هفته هزاران نفر را فریب دهد اگر این مورد بدون آدرس باقی بماند.
سری مدل o1 همچنین ممکن است به طور قابل توجهی دستکاری تر از GPT-4o باشد. طبق آزمایشات OpenAI با استفاده از ارزیابی تست منبع باز به نام MakeMePay، o1 تقریباً 20٪ بیشتر از GPT-4o دستکاری شده است.
از آنجایی که چند محقق ایمنی هوش مصنوعی در سال گذشته OpenAI را ترک کرده اند، ممکن است این یافته ها باعث نگرانی برخی شود. فهرست رو به رشدی از این کارمندان سابق – از جمله یان لیکه، دانیل کوکوتاجلو، مایلز براندیج، و همین هفته گذشته، رزی کمپبل – OpenAI را متهم کرده اند که کار ایمنی هوش مصنوعی را به نفع ارسال محصولات جدید از اولویت خارج کرده است. در حالی که برنامه ریزی ثبت رکورد توسط o1 ممکن است نتیجه مستقیم آن نباشد، مطمئناً اعتماد به نفس را القا نمی کند.
OpenAI همچنین او میگوید که موسسه ایمنی هوش مصنوعی ایالات متحده و موسسه ایمنی بریتانیا ارزیابیهایی را از o1 قبل از انتشار گستردهتر آن انجام دادهاند، کاری که شرکت اخیراً متعهد شده است برای همه مدلها انجام دهد. در بحث در مورد لایحه SB 1047 هوش مصنوعی کالیفرنیا استدلال شد که نهادهای ایالتی نباید اختیار تعیین استانداردهای ایمنی پیرامون هوش مصنوعی را داشته باشند، اما نهادهای فدرال باید این اختیار را داشته باشند. (البته، سرنوشت نهادهای نظارتی نوپای فدرال هوش مصنوعی بسیار زیر سوال است. )
پشت انتشار مدلهای جدید هوش مصنوعی، کارهای زیادی وجود دارد که OpenAI در داخل برای اندازهگیری ایمنی مدلهایش انجام میدهد. گزارشها حاکی از آن است که تیم نسبتاً کوچکتری در این شرکت نسبت به گذشته این کار ایمنی را انجام میدهد و ممکن است تیم منابع کمتری نیز دریافت کند. با این حال، این یافتهها در مورد ماهیت فریبنده o1 ممکن است به اثبات این موضوع کمک کند که چرا ایمنی و شفافیت هوش مصنوعی اکنون بیش از همیشه مرتبط است.
ارسال نظر