بسیاری از شرکت ها نمی گویند که آیا با قانون شفافیت آموزش هوش مصنوعی کالیفرنیا مطابقت دارند یا خیر

شناسهٔ خبر: 775131 - تاریخ: اکتبر 4, 2024

روز یکشنبه، گاوین نیوسام، فرماندار کالیفرنیا، لایحه‌ای به نام AB-2013 را امضا کرد که از شرکت‌های توسعه‌دهنده سیستم‌های هوش مصنوعی مولد می‌خواهد خلاصه‌ای از داده‌هایی را که برای آموزش سیستم‌های خود استفاده می‌کنند، منتشر کنند. از جمله نکات دیگر، خلاصه‌ها باید شامل مالکیت داده‌ها و نحوه تهیه یا مجوز آن، و همچنین شامل هرگونه اطلاعات دارای حق چاپ یا شخصی باشد.

تعداد کمی از شرکت‌های هوش مصنوعی مایلند که بگویند آیا آنها را رعایت می‌کنند یا خیر.

TechCrunch با بازیگران اصلی در فضای هوش مصنوعی از جمله OpenAI، Anthropic، Microsoft، Google، Amazon، Meta و استارت‌آپ‌های Stability AI، Midjourney، Udio، Suno، Runway و Luma Labs تماس گرفت. کمتر از نیمی پاسخ دادند و یک فروشنده - مایکروسافت - به صراحت از اظهار نظر خودداری کرد.

فقط Stability، Runway و OpenAI به TechCrunch گفتند که با AB-2013 مطابقت دارند.

یکی از سخنگویان OpenAI گفت: "OpenAI در حوزه های قضایی که ما در آنها فعالیت می کنیم، از جمله این قانون، مطابقت دارد." سخنگوی Stability بيان کرد که این شرکت "از مقررات متفکرانه ای حمایت می کند که از مردم محافظت می کند و در عین حال نوآوری را خفه نمی کند."

اگر منصف باشیم، الزامات افشای AB-2013 فوراً اعمال نمی شود. در حالی که آنها برای سیستم های منتشر شده در ژانویه 2022 یا پس از آن اعمال می شوند - ChatGPT و Stable Diffusion، برای نام بردن از چند نفر - شرکت ها تا ژانویه 2026 فرصت دارند تا انتشار خلاصه داده های آموزشی را آغاز کنند. این قانون همچنین فقط در مورد سیستم‌هایی اعمال می‌شود که در اختیار کالیفرنیایی‌ها قرار می‌گیرند و فضایی برای تکان دادن باقی می‌گذارند.

اما ممکن است دلیل دیگری برای سکوت فروشندگان در این مورد وجود داشته باشد و آن به نحوه آموزش بیشتر سیستم های هوش مصنوعی مولد مربوط می شود.

دیگر اخبار

علی بابا با استراتژی «خرده فروشی جدید» که زمانی مورد تحسین قرار گرفته بود، مواجه است

داده های آموزشی اغلب از وب می آید. فروشندگان حجم زیادی از تصاویر، آهنگ‌ها، ویدیوها و موارد دیگر را از وب‌سایت‌ها پاک می‌کنند و سیستم‌های خود را بر روی آنها آموزش می‌دهند.

سال‌ها پیش، برای توسعه‌دهندگان هوش مصنوعی معمول بود که منابع داده‌های آموزشی خود را فهرست کنند، معمولاً در یک مقاله فنی همراه با انتشار یک مدل. به عنوان مثال، گوگل یک بار فاش کرد که یک نسخه اولیه از خانواده مدل های تولید تصویر خود، Imagen، را بر روی مجموعه داده های عمومی LAION آموزش داده است. بسیاری از مقالات قدیمی‌تر به The Pile اشاره می‌کنند، مجموعه‌ای منبع باز از متن آموزشی که شامل مطالعات آکادمیک و پایگاه‌های کد است.

در بازار پرطرفدار امروزی، ترکیب مجموعه داده‌های آموزشی به عنوان یک مزیت رقابتی در نظر گرفته می‌شود و شرکت‌ها این را یکی از دلایل اصلی عدم افشای خود می‌دانند. اما جزئیات داده های آموزشی نیز می تواند هدف قانونی را بر روی پشت توسعه دهندگان ترسیم کند. LAION به تصاویر دارای حق چاپ و نقض حریم خصوصی پیوند می‌دهد، در حالی که The Pile حاوی Books3، کتابخانه‌ای از آثار دزدی دریایی استیون کینگ و سایر نویسندگان است.

در حال حاضر تعدادی از شکایت ها در مورد سوء استفاده از داده های آموزشی وجود دارد، و هر ماه موارد بیشتری تشکیل می شود.

نویسندگان و ناشران ادعا می‌کنند که OpenAI، Anthropic و Meta از کتاب‌های دارای حق چاپ - برخی از Books3 - برای آموزش استفاده کرده‌اند. لیبل های موسیقی Udio و Suno را به اتهام آموزش آهنگ ها بدون پرداخت غرامت به نوازندگان به دادگاه برده اند. و هنرمندان شکایت های دسته جمعی را علیه Stability و Midjourney به دلیل آنچه که آنها می گویند شیوه های خراش دادن داده ها در حد دزدی است، تنظیم کرده اند.

دیدن اینکه چگونه AB-2013 می تواند برای فروشندگانی که سعی می کنند از نبردهای دادگاه دور نگه دارند مشکل ساز باشد دشوار نیست. این قانون الزام می‌کند که مجموعه‌ای از مشخصات بالقوه مجرم‌آمیز درباره مجموعه داده‌های آموزشی، از جمله اطلاعیه‌ای که نشان می‌دهد اولین بار چه زمانی از مجموعه‌ها استفاده شده‌اند و اینکه آیا جمع‌آوری داده‌ها ادامه دارد، منتشر شود.

AB-2013 از نظر دامنه بسیار گسترده است. هر نهادی که یک سیستم هوش مصنوعی را «تغییر قابل ملاحظه‌ای» می‌کند - یعنی آن را تنظیم دقیق یا بازآموزی می‌کند - همچنین مجبور است اطلاعات مربوط به داده‌های آموزشی را که برای این کار استفاده می‌کردند منتشر کند. این قانون دارای چند نکته است، اما آنها بیشتر در مورد سیستم‌های هوش مصنوعی مورد استفاده در امنیت سایبری و دفاع اعمال می‌شوند، مانند سیستم‌هایی که برای «عملیات هواپیما در حریم هوایی ملی» استفاده می‌شوند.

البته، بسیاری از فروشندگان بر این باورند که دکترینی که به عنوان استفاده منصفانه شناخته می شود، پوشش قانونی را ارائه می دهد، و آنها این را در دادگاه و در بیانیه های عمومی بیان می کنند. برخی، مانند متا و گوگل، تنظیمات و شرایط خدمات پلتفرم خود را تغییر داده اند تا به آنها اجازه دهند از داده های کاربر بیشتری برای آموزش استفاده کنند.

برخی از شرکت‌ها به دلیل فشارهای رقابتی و شرط‌بندی که دفاع منصفانه در نهایت پیروز خواهد شد، به طور آزادانه روی داده‌های محافظت شده با IP آموزش دیده‌اند. گزارش رویترز نشان داد که متا در مقطعی از کتاب های دارای حق چاپ برای آموزش هوش مصنوعی علی رغم هشدارهای وکلای خود استفاده کرده است. شواهدی وجود دارد که نشان می‌دهد Runway فیلم‌های Netflix و Disney را برای آموزش سیستم‌های تولید ویدیو خود تهیه کرده است. گزارش شده است که OpenAI ویدیوهای YouTube را بدون اطلاع سازندگان برای توسعه مدل‌هایی از جمله GPT-4 رونویسی کرده است.

بیشتر بخوانید

آغاز کن هفتاد و هفتم با تقدیر از مریل استریپ

همانطور که قبلاً نوشته‌ایم، نتیجه‌ای وجود دارد که در آن فروشندگان مولد هوش مصنوعی از افشای داده‌های آموزش سیستمی یا بدون اسکاتلند خارج می‌شوند یا خیر. دادگاه ها ممکن است در نهایت از طرفداران استفاده منصفانه حمایت کنند و تصمیم بگیرند که هوش مصنوعی مولد به اندازه کافی دگرگون کننده است - و نه موتور سرقت ادبی که نیویورک تایمز و سایر شاکیان ادعا می کنند که چنین است.

در یک سناریوی دراماتیک تر، AB-2013 می تواند منجر به این شود که فروشندگان مدل های خاصی را در کالیفرنیا خودداری کنند، یا نسخه هایی از مدل ها را برای کالیفرنیایی ها منتشر کنند که فقط در مورد استفاده منصفانه و مجموعه داده های دارای مجوز آموزش دیده اند. برخی از فروشندگان ممکن است تصمیم بگیرند که ایمن‌ترین اقدام در مورد AB-2013، اقدامی است که از به خطر انداختن افشاگری‌ها و شکایت‌های قانونی جلوگیری می‌کند.