متن خبر

بسیاری از ارزیابی های ایمنی برای مدل های هوش مصنوعی محدودیت های قابل توجهی دارند

بسیاری از ارزیابی های ایمنی برای مدل های هوش مصنوعی محدودیت های قابل توجهی دارند

شناسهٔ خبر: 676599 -




بر اساس گزارشی جدید، علیرغم افزایش تقاضا برای ایمنی و پاسخگویی هوش مصنوعی، آزمایش‌ها و معیارهای امروزی ممکن است کوتاهی کنند.

مدل‌های مولد هوش مصنوعی – مدل‌هایی که می‌توانند متن، تصاویر، موسیقی، ویدیو و غیره را تجزیه و تحلیل و خروجی بگیرند – به دلیل تمایلشان به اشتباه و عموماً رفتار غیرقابل پیش‌بینی بیشتر مورد تحلیل قرار می‌گیرند. اکنون، سازمان‌ها از آژانس‌های بخش دولتی گرفته تا شرکت‌های بزرگ فناوری، معیارهای جدیدی را برای آزمایش ایمنی این مدل‌ها پیشنهاد می‌کنند.

در اواخر سال گذشته، استارت‌آپ Scale AI آزمایشگاهی را تشکیل داد که به ارزیابی میزان هماهنگی مدل‌ها با دستورالعمل‌های ایمنی اختصاص داشت. در این ماه، NIST و موسسه ایمنی هوش مصنوعی بریتانیا ابزارهایی را منتشر کردند که برای ارزیابی ریسک مدل طراحی شده بودند.

اما این آزمایش‌ها و روش‌های کاوشگر مدل ممکن است ناکافی باشند.

موسسه آدا لاولیس (ALI)، یک سازمان تحقیقاتی غیرانتفاعی هوش مصنوعی مستقر در بریتانیا، مطالعه‌ای انجام داد که در آن با کارشناسان آزمایشگاه‌های دانشگاهی، جامعه مدنی و کسانی که مدل‌های فروشندگان را تولید می‌کنند، مصاحبه کرد و همچنین تحقیقات اخیر در مورد ارزیابی ایمنی هوش مصنوعی را ممیزی کرد. نویسندگان مشترک دریافتند که اگرچه ارزیابی‌های کنونی می‌توانند مفید باشند، اما جامع نیستند، می‌توان آنها را به راحتی بازی کرد و لزوماً نشانی از نحوه رفتار مدل‌ها در سناریوهای دنیای واقعی نشان نمی‌دهند.

چه یک گوشی هوشمند، چه یک داروی تجویزی یا یک خودرو، ما انتظار داریم محصولاتی که استفاده می کنیم ایمن و قابل اعتماد باشند. الیوت جونز، محقق ارشد ALI و یکی از نویسندگان این گزارش، به TechCrunch گفت: در این بخش‌ها، محصولات برای اطمینان از ایمن بودن آن‌ها قبل از استقرار به دقت آزمایش می‌شوند. هدف تحقیق ما تحلیل محدودیت‌های رویکردهای فعلی ارزیابی ایمنی هوش مصنوعی، ارزیابی نحوه استفاده از ارزیابی‌ها در حال حاضر و تحلیل استفاده از آنها به عنوان ابزاری برای سیاست‌گذاران و تنظیم‌کننده‌ها بود.

معیارها و تیم قرمز

نویسندگان همکار این مطالعه ابتدا ادبیات دانشگاهی را تحلیل کردند تا یک نمای کلی از آسیب‌ها و خطرات مدل‌های امروزی و وضعیت ارزیابی‌های مدل هوش مصنوعی موجود ایجاد کنند. آنها سپس با 16 کارشناس، از جمله چهار کارمند در شرکت‌های فناوری ناشناس که سیستم‌های هوش مصنوعی مولد را توسعه می‌دهند، مصاحبه کردند.

این مطالعه اختلاف نظر شدیدی را در صنعت هوش مصنوعی در مورد بهترین مجموعه روش‌ها و طبقه‌بندی برای ارزیابی مدل‌ها نشان داد.

برخی ارزیابی‌ها فقط نحوه همسویی مدل‌ها با معیارهای آزمایشگاهی را آزمایش کردند، نه اینکه چگونه مدل‌ها ممکن است بر کاربران دنیای واقعی تأثیر بگذارند. برخی دیگر از آزمایش‌هایی استفاده کردند که برای اهداف تحقیقاتی توسعه یافته بودند، نه مدل‌های تولید را ارزیابی کردند - با این حال فروشندگان اصرار داشتند که از آنها در تولید استفاده کنند.

قبلاً در مورد مشکلات بنچمارک‌های هوش مصنوعی نوشته‌ایم، و این مطالعه تمام این مشکلات و موارد دیگر را برجسته می‌کند.

کارشناسان ذکر شده در این مطالعه بيان کرد ند که برون یابی عملکرد یک مدل از نتایج معیار دشوار است و مشخص نیست که آیا معیارها حتی می توانند نشان دهند که یک مدل دارای یک قابلیت خاص است یا خیر. به عنوان مثال، در حالی که یک مدل ممکن است در آزمون وکالت دولتی عملکرد خوبی داشته باشد، این بدان معنا نیست که می تواند چالش های حقوقی بی پایان بیشتری را حل کند.

کارشناسان همچنین به موضوع آلودگی داده ها اشاره کردند، جایی که نتایج معیار می تواند عملکرد یک مدل را بیش از حد تخمین بزند اگر مدل بر روی همان داده هایی که روی آن آزمایش می شود آموزش دیده باشد. به گفته کارشناسان، معیارها در بسیاری از موارد توسط سازمان‌ها انتخاب می‌شوند، نه به این دلیل که بهترین ابزار برای ارزیابی هستند، بلکه به خاطر راحتی و سهولت استفاده هستند.

ماهی هاردالوپاس، محقق در این زمینه گفت: «معیارها در معرض خطر دستکاری توسط توسعه‌دهندگانی هستند که ممکن است مدل‌هایی را بر اساس مجموعه داده‌های مشابهی که برای ارزیابی مدل استفاده می‌شود، معادل دیدن برگه امتحان قبل از امتحان، یا با انتخاب استراتژیک ارزیابی‌هایی که استفاده کنند، آموزش دهند. ALI و یکی از نویسندگان مطالعه به TechCrunch گفت. همچنین مهم است که کدام نسخه از یک مدل در حال ارزیابی است. تغییرات کوچک می تواند باعث تغییرات غیرقابل پیش بینی در رفتار شود و ممکن است ویژگی های ایمنی داخلی را نادیده بگیرد.

مطالعه ALI همچنین مشکلاتی را با "تیم قرمز"، تمرین تکلیف افراد یا گروه‌ها با مدلی برای شناسایی آسیب‌پذیری‌ها و نقص‌ها پیدا کرد. تعدادی از شرکت‌ها از تیم قرمز برای ارزیابی مدل‌ها استفاده می‌کنند، از جمله استارت‌آپ‌های هوش مصنوعی OpenAI و Anthropic، اما استانداردهای توافق‌شده کمی برای تیم قرمز وجود دارد، که ارزیابی اثربخشی یک تلاش معین را دشوار می‌کند.

کارشناسان به نویسندگان همکار این مطالعه گفتند که یافتن افرادی با مهارت‌ها و تخصص‌های لازم برای تیم قرمز دشوار است و ماهیت دستی تیم‌سازی قرمز آن را پرهزینه و پر زحمت می‌کند – ایجاد موانع برای سازمان‌های کوچک‌تر بدون منابع لازم.

راه حل های امکان پذیر

فشار برای انتشار سریع‌تر مدل‌ها و عدم تمایل به انجام آزمایش‌هایی که می‌تواند مشکلاتی را قبل از انتشار ایجاد کند، دلایل اصلی بهتر نشدن ارزیابی‌های هوش مصنوعی است.

جونز گفت: «فردی که با او در حال کار برای یک شرکت در حال توسعه مدل‌های بنیاد بود، احساس می‌کرد که فشار بیشتری در شرکت‌ها برای انتشار سریع مدل‌ها وجود دارد، که عقب‌نشینی و جدی گرفتن ارزیابی‌ها را سخت‌تر می‌کند. آزمایشگاه‌های بزرگ هوش مصنوعی مدل‌هایی را با سرعتی منتشر می‌کنند که از توانایی آنها یا جامعه برای اطمینان از ایمن و قابل اعتماد بودن آنها پیشی می‌گیرد.»

یکی از مصاحبه‌شوندگان در مطالعه ALI ارزیابی مدل‌ها برای ایمنی را مشکلی «حل‌ناپذیر» نامید. پس صنعت - و کسانی که آن را تنظیم می کنند - چه امیدی به راه حل دارند؟

ماهی هاردالوپاس، محقق در ALI، معتقد است که مسیری رو به جلو وجود دارد، اما این امر مستلزم مشارکت بیشتر نهادهای بخش عمومی است.

او گفت: «قانون‌گذاران و سیاست‌گذاران باید به وضوح آنچه را که از ارزیابی‌ها می‌خواهند بیان کنند». به طور همزمان، جامعه ارزیابی باید در مورد محدودیت‌ها و پتانسیل فعلی ارزیابی‌ها شفاف باشد.

هاردالوپاس پیشنهاد می‌کند که دولت‌ها مشارکت عمومی بیشتری را در توسعه ارزیابی‌ها و اجرای اقداماتی برای حمایت از «اکوسیستم» آزمایش‌های شخص ثالث، از جمله برنامه‌هایی برای اطمینان از دسترسی منظم به هر مدل و مجموعه داده‌های مورد نیاز، الزامی کنند.

جونز فکر می‌کند که ممکن است لازم باشد ارزیابی‌های «متن خاص» ایجاد شود که فراتر از آزمایش ساده نحوه پاسخ‌دهی یک مدل به یک درخواست باشد، و در عوض به انواع کاربرانی که یک مدل ممکن است بر آن تأثیر بگذارد (مثلاً افراد با پیش‌زمینه، جنسیت یا افراد خاص نگاه شود قومیت) و راه هایی که در آن حمله به مدل ها می تواند پادمان ها را شکست دهد.

او گفت : «این امر مستلزم سرمایه‌گذاری در علم اساسی ارزیابی‌ها برای توسعه ارزیابی‌های قوی‌تر و قابل تکرار است که مبتنی بر درک نحوه عملکرد یک مدل هوش مصنوعی است. »

اما ممکن است هرگز تضمینی برای ایمن بودن یک مدل وجود نداشته باشد.

هاردالوپاس گفت: "همانطور که دیگران اشاره کردند، "ایمنی" از ویژگی های مدل ها نیست. «تعیین «ایمن» بودن یک مدل مستلزم درک زمینه‌هایی است که در آن استفاده می‌شود، به چه کسانی فروخته می‌شود یا در دسترس قرار می‌گیرد، و اینکه آیا پادمان‌های موجود برای کاهش این خطرات کافی و قوی هستند یا خیر. ارزیابی یک مدل پایه می تواند یک هدف اکتشافی برای شناسایی خطرات بالقوه باشد، اما نمی تواند تضمین کند که یک مدل ایمن است، چه رسد به "کاملا ایمن". بسیاری از مصاحبه شوندگان ما موافق بودند که ارزیابی ها نمی تواند ایمن بودن یک مدل را ثابت کند و فقط می تواند نشان دهد که یک مدل ناامن است.

خبرکاو

ارسال نظر




تبليغات ايهنا تبليغات ايهنا

تمامی حقوق مادی و معنوی این سایت متعلق به خبرکاو است و استفاده از مطالب با ذکر منبع بلامانع است