بسیاری از ارزیابی های ایمنی برای مدل های هوش مصنوعی محدودیت های قابل توجهی دارند
بر اساس گزارشی جدید، علیرغم افزایش تقاضا برای ایمنی و پاسخگویی هوش مصنوعی، آزمایشها و معیارهای امروزی ممکن است کوتاهی کنند.
مدلهای مولد هوش مصنوعی – مدلهایی که میتوانند متن، تصاویر، موسیقی، ویدیو و غیره را تجزیه و تحلیل و خروجی بگیرند – به دلیل تمایلشان به اشتباه و عموماً رفتار غیرقابل پیشبینی بیشتر مورد تحلیل قرار میگیرند. اکنون، سازمانها از آژانسهای بخش دولتی گرفته تا شرکتهای بزرگ فناوری، معیارهای جدیدی را برای آزمایش ایمنی این مدلها پیشنهاد میکنند.
در اواخر سال گذشته، استارتآپ Scale AI آزمایشگاهی را تشکیل داد که به ارزیابی میزان هماهنگی مدلها با دستورالعملهای ایمنی اختصاص داشت. در این ماه، NIST و موسسه ایمنی هوش مصنوعی بریتانیا ابزارهایی را منتشر کردند که برای ارزیابی ریسک مدل طراحی شده بودند.
اما این آزمایشها و روشهای کاوشگر مدل ممکن است ناکافی باشند.
موسسه آدا لاولیس (ALI)، یک سازمان تحقیقاتی غیرانتفاعی هوش مصنوعی مستقر در بریتانیا، مطالعهای انجام داد که در آن با کارشناسان آزمایشگاههای دانشگاهی، جامعه مدنی و کسانی که مدلهای فروشندگان را تولید میکنند، مصاحبه کرد و همچنین تحقیقات اخیر در مورد ارزیابی ایمنی هوش مصنوعی را ممیزی کرد. نویسندگان مشترک دریافتند که اگرچه ارزیابیهای کنونی میتوانند مفید باشند، اما جامع نیستند، میتوان آنها را به راحتی بازی کرد و لزوماً نشانی از نحوه رفتار مدلها در سناریوهای دنیای واقعی نشان نمیدهند.
چه یک گوشی هوشمند، چه یک داروی تجویزی یا یک خودرو، ما انتظار داریم محصولاتی که استفاده می کنیم ایمن و قابل اعتماد باشند. الیوت جونز، محقق ارشد ALI و یکی از نویسندگان این گزارش، به TechCrunch گفت: در این بخشها، محصولات برای اطمینان از ایمن بودن آنها قبل از استقرار به دقت آزمایش میشوند. هدف تحقیق ما تحلیل محدودیتهای رویکردهای فعلی ارزیابی ایمنی هوش مصنوعی، ارزیابی نحوه استفاده از ارزیابیها در حال حاضر و تحلیل استفاده از آنها به عنوان ابزاری برای سیاستگذاران و تنظیمکنندهها بود.
معیارها و تیم قرمز
نویسندگان همکار این مطالعه ابتدا ادبیات دانشگاهی را تحلیل کردند تا یک نمای کلی از آسیبها و خطرات مدلهای امروزی و وضعیت ارزیابیهای مدل هوش مصنوعی موجود ایجاد کنند. آنها سپس با 16 کارشناس، از جمله چهار کارمند در شرکتهای فناوری ناشناس که سیستمهای هوش مصنوعی مولد را توسعه میدهند، مصاحبه کردند.
این مطالعه اختلاف نظر شدیدی را در صنعت هوش مصنوعی در مورد بهترین مجموعه روشها و طبقهبندی برای ارزیابی مدلها نشان داد.
برخی ارزیابیها فقط نحوه همسویی مدلها با معیارهای آزمایشگاهی را آزمایش کردند، نه اینکه چگونه مدلها ممکن است بر کاربران دنیای واقعی تأثیر بگذارند. برخی دیگر از آزمایشهایی استفاده کردند که برای اهداف تحقیقاتی توسعه یافته بودند، نه مدلهای تولید را ارزیابی کردند - با این حال فروشندگان اصرار داشتند که از آنها در تولید استفاده کنند.
قبلاً در مورد مشکلات بنچمارکهای هوش مصنوعی نوشتهایم، و این مطالعه تمام این مشکلات و موارد دیگر را برجسته میکند.
کارشناسان ذکر شده در این مطالعه بيان کرد ند که برون یابی عملکرد یک مدل از نتایج معیار دشوار است و مشخص نیست که آیا معیارها حتی می توانند نشان دهند که یک مدل دارای یک قابلیت خاص است یا خیر. به عنوان مثال، در حالی که یک مدل ممکن است در آزمون وکالت دولتی عملکرد خوبی داشته باشد، این بدان معنا نیست که می تواند چالش های حقوقی بی پایان بیشتری را حل کند.
کارشناسان همچنین به موضوع آلودگی داده ها اشاره کردند، جایی که نتایج معیار می تواند عملکرد یک مدل را بیش از حد تخمین بزند اگر مدل بر روی همان داده هایی که روی آن آزمایش می شود آموزش دیده باشد. به گفته کارشناسان، معیارها در بسیاری از موارد توسط سازمانها انتخاب میشوند، نه به این دلیل که بهترین ابزار برای ارزیابی هستند، بلکه به خاطر راحتی و سهولت استفاده هستند.
ماهی هاردالوپاس، محقق در این زمینه گفت: «معیارها در معرض خطر دستکاری توسط توسعهدهندگانی هستند که ممکن است مدلهایی را بر اساس مجموعه دادههای مشابهی که برای ارزیابی مدل استفاده میشود، معادل دیدن برگه امتحان قبل از امتحان، یا با انتخاب استراتژیک ارزیابیهایی که استفاده کنند، آموزش دهند. ALI و یکی از نویسندگان مطالعه به TechCrunch گفت. همچنین مهم است که کدام نسخه از یک مدل در حال ارزیابی است. تغییرات کوچک می تواند باعث تغییرات غیرقابل پیش بینی در رفتار شود و ممکن است ویژگی های ایمنی داخلی را نادیده بگیرد.
مطالعه ALI همچنین مشکلاتی را با "تیم قرمز"، تمرین تکلیف افراد یا گروهها با مدلی برای شناسایی آسیبپذیریها و نقصها پیدا کرد. تعدادی از شرکتها از تیم قرمز برای ارزیابی مدلها استفاده میکنند، از جمله استارتآپهای هوش مصنوعی OpenAI و Anthropic، اما استانداردهای توافقشده کمی برای تیم قرمز وجود دارد، که ارزیابی اثربخشی یک تلاش معین را دشوار میکند.
کارشناسان به نویسندگان همکار این مطالعه گفتند که یافتن افرادی با مهارتها و تخصصهای لازم برای تیم قرمز دشوار است و ماهیت دستی تیمسازی قرمز آن را پرهزینه و پر زحمت میکند – ایجاد موانع برای سازمانهای کوچکتر بدون منابع لازم.
راه حل های امکان پذیر
فشار برای انتشار سریعتر مدلها و عدم تمایل به انجام آزمایشهایی که میتواند مشکلاتی را قبل از انتشار ایجاد کند، دلایل اصلی بهتر نشدن ارزیابیهای هوش مصنوعی است.
جونز گفت: «فردی که با او در حال کار برای یک شرکت در حال توسعه مدلهای بنیاد بود، احساس میکرد که فشار بیشتری در شرکتها برای انتشار سریع مدلها وجود دارد، که عقبنشینی و جدی گرفتن ارزیابیها را سختتر میکند. آزمایشگاههای بزرگ هوش مصنوعی مدلهایی را با سرعتی منتشر میکنند که از توانایی آنها یا جامعه برای اطمینان از ایمن و قابل اعتماد بودن آنها پیشی میگیرد.»
یکی از مصاحبهشوندگان در مطالعه ALI ارزیابی مدلها برای ایمنی را مشکلی «حلناپذیر» نامید. پس صنعت - و کسانی که آن را تنظیم می کنند - چه امیدی به راه حل دارند؟
ماهی هاردالوپاس، محقق در ALI، معتقد است که مسیری رو به جلو وجود دارد، اما این امر مستلزم مشارکت بیشتر نهادهای بخش عمومی است.
او گفت: «قانونگذاران و سیاستگذاران باید به وضوح آنچه را که از ارزیابیها میخواهند بیان کنند». به طور همزمان، جامعه ارزیابی باید در مورد محدودیتها و پتانسیل فعلی ارزیابیها شفاف باشد.
هاردالوپاس پیشنهاد میکند که دولتها مشارکت عمومی بیشتری را در توسعه ارزیابیها و اجرای اقداماتی برای حمایت از «اکوسیستم» آزمایشهای شخص ثالث، از جمله برنامههایی برای اطمینان از دسترسی منظم به هر مدل و مجموعه دادههای مورد نیاز، الزامی کنند.
جونز فکر میکند که ممکن است لازم باشد ارزیابیهای «متن خاص» ایجاد شود که فراتر از آزمایش ساده نحوه پاسخدهی یک مدل به یک درخواست باشد، و در عوض به انواع کاربرانی که یک مدل ممکن است بر آن تأثیر بگذارد (مثلاً افراد با پیشزمینه، جنسیت یا افراد خاص نگاه شود قومیت) و راه هایی که در آن حمله به مدل ها می تواند پادمان ها را شکست دهد.
او گفت : «این امر مستلزم سرمایهگذاری در علم اساسی ارزیابیها برای توسعه ارزیابیهای قویتر و قابل تکرار است که مبتنی بر درک نحوه عملکرد یک مدل هوش مصنوعی است. »
اما ممکن است هرگز تضمینی برای ایمن بودن یک مدل وجود نداشته باشد.
هاردالوپاس گفت: "همانطور که دیگران اشاره کردند، "ایمنی" از ویژگی های مدل ها نیست. «تعیین «ایمن» بودن یک مدل مستلزم درک زمینههایی است که در آن استفاده میشود، به چه کسانی فروخته میشود یا در دسترس قرار میگیرد، و اینکه آیا پادمانهای موجود برای کاهش این خطرات کافی و قوی هستند یا خیر. ارزیابی یک مدل پایه می تواند یک هدف اکتشافی برای شناسایی خطرات بالقوه باشد، اما نمی تواند تضمین کند که یک مدل ایمن است، چه رسد به "کاملا ایمن". بسیاری از مصاحبه شوندگان ما موافق بودند که ارزیابی ها نمی تواند ایمن بودن یک مدل را ثابت کند و فقط می تواند نشان دهد که یک مدل ناامن است.
ارسال نظر