بسیاری از شرکت ها نمی گویند که آیا با قانون شفافیت آموزش هوش مصنوعی کالیفرنیا مطابقت دارند یا خیر
روز یکشنبه، گاوین نیوسام، فرماندار کالیفرنیا، لایحهای به نام AB-2013 را امضا کرد که از شرکتهای توسعهدهنده سیستمهای هوش مصنوعی مولد میخواهد خلاصهای از دادههایی را که برای آموزش سیستمهای خود استفاده میکنند، منتشر کنند. از جمله نکات دیگر، خلاصهها باید شامل مالکیت دادهها و نحوه تهیه یا مجوز آن، و همچنین شامل هرگونه اطلاعات دارای حق چاپ یا شخصی باشد.
تعداد کمی از شرکتهای هوش مصنوعی مایلند که بگویند آیا آنها را رعایت میکنند یا خیر.
TechCrunch با بازیگران اصلی در فضای هوش مصنوعی از جمله OpenAI، Anthropic، Microsoft، Google، Amazon، Meta و استارتآپهای Stability AI، Midjourney، Udio، Suno، Runway و Luma Labs تماس گرفت. کمتر از نیمی پاسخ دادند و یک فروشنده - مایکروسافت - به صراحت از اظهار نظر خودداری کرد.
فقط Stability، Runway و OpenAI به TechCrunch گفتند که با AB-2013 مطابقت دارند.
یکی از سخنگویان OpenAI گفت: "OpenAI در حوزه های قضایی که ما در آنها فعالیت می کنیم، از جمله این قانون، مطابقت دارد." سخنگوی Stability بيان کرد که این شرکت "از مقررات متفکرانه ای حمایت می کند که از مردم محافظت می کند و در عین حال نوآوری را خفه نمی کند."
اگر منصف باشیم، الزامات افشای AB-2013 فوراً اعمال نمی شود. در حالی که آنها برای سیستم های منتشر شده در ژانویه 2022 یا پس از آن اعمال می شوند - ChatGPT و Stable Diffusion، برای نام بردن از چند نفر - شرکت ها تا ژانویه 2026 فرصت دارند تا انتشار خلاصه داده های آموزشی را آغاز کنند. این قانون همچنین فقط در مورد سیستمهایی اعمال میشود که در اختیار کالیفرنیاییها قرار میگیرند و فضایی برای تکان دادن باقی میگذارند.
اما ممکن است دلیل دیگری برای سکوت فروشندگان در این مورد وجود داشته باشد و آن به نحوه آموزش بیشتر سیستم های هوش مصنوعی مولد مربوط می شود.
داده های آموزشی اغلب از وب می آید. فروشندگان حجم زیادی از تصاویر، آهنگها، ویدیوها و موارد دیگر را از وبسایتها پاک میکنند و سیستمهای خود را بر روی آنها آموزش میدهند.
سالها پیش، برای توسعهدهندگان هوش مصنوعی معمول بود که منابع دادههای آموزشی خود را فهرست کنند، معمولاً در یک مقاله فنی همراه با انتشار یک مدل. به عنوان مثال، گوگل یک بار فاش کرد که یک نسخه اولیه از خانواده مدل های تولید تصویر خود، Imagen، را بر روی مجموعه داده های عمومی LAION آموزش داده است. بسیاری از مقالات قدیمیتر به The Pile اشاره میکنند، مجموعهای منبع باز از متن آموزشی که شامل مطالعات آکادمیک و پایگاههای کد است.
در بازار پرطرفدار امروزی، ترکیب مجموعه دادههای آموزشی به عنوان یک مزیت رقابتی در نظر گرفته میشود و شرکتها این را یکی از دلایل اصلی عدم افشای خود میدانند. اما جزئیات داده های آموزشی نیز می تواند هدف قانونی را بر روی پشت توسعه دهندگان ترسیم کند. LAION به تصاویر دارای حق چاپ و نقض حریم خصوصی پیوند میدهد، در حالی که The Pile حاوی Books3، کتابخانهای از آثار دزدی دریایی استیون کینگ و سایر نویسندگان است.
در حال حاضر تعدادی از شکایت ها در مورد سوء استفاده از داده های آموزشی وجود دارد، و هر ماه موارد بیشتری تشکیل می شود.
نویسندگان و ناشران ادعا میکنند که OpenAI، Anthropic و Meta از کتابهای دارای حق چاپ - برخی از Books3 - برای آموزش استفاده کردهاند. لیبل های موسیقی Udio و Suno را به اتهام آموزش آهنگ ها بدون پرداخت غرامت به نوازندگان به دادگاه برده اند. و هنرمندان شکایت های دسته جمعی را علیه Stability و Midjourney به دلیل آنچه که آنها می گویند شیوه های خراش دادن داده ها در حد دزدی است، تنظیم کرده اند.
دیدن اینکه چگونه AB-2013 می تواند برای فروشندگانی که سعی می کنند از نبردهای دادگاه دور نگه دارند مشکل ساز باشد دشوار نیست. این قانون الزام میکند که مجموعهای از مشخصات بالقوه مجرمآمیز درباره مجموعه دادههای آموزشی، از جمله اطلاعیهای که نشان میدهد اولین بار چه زمانی از مجموعهها استفاده شدهاند و اینکه آیا جمعآوری دادهها ادامه دارد، منتشر شود.
AB-2013 از نظر دامنه بسیار گسترده است. هر نهادی که یک سیستم هوش مصنوعی را «تغییر قابل ملاحظهای» میکند - یعنی آن را تنظیم دقیق یا بازآموزی میکند - همچنین مجبور است اطلاعات مربوط به دادههای آموزشی را که برای این کار استفاده میکردند منتشر کند. این قانون دارای چند نکته است، اما آنها بیشتر در مورد سیستمهای هوش مصنوعی مورد استفاده در امنیت سایبری و دفاع اعمال میشوند، مانند سیستمهایی که برای «عملیات هواپیما در حریم هوایی ملی» استفاده میشوند.
البته، بسیاری از فروشندگان بر این باورند که دکترینی که به عنوان استفاده منصفانه شناخته می شود، پوشش قانونی را ارائه می دهد، و آنها این را در دادگاه و در بیانیه های عمومی بیان می کنند. برخی، مانند متا و گوگل، تنظیمات و شرایط خدمات پلتفرم خود را تغییر داده اند تا به آنها اجازه دهند از داده های کاربر بیشتری برای آموزش استفاده کنند.
برخی از شرکتها به دلیل فشارهای رقابتی و شرطبندی که دفاع منصفانه در نهایت پیروز خواهد شد، به طور آزادانه روی دادههای محافظت شده با IP آموزش دیدهاند. گزارش رویترز نشان داد که متا در مقطعی از کتاب های دارای حق چاپ برای آموزش هوش مصنوعی علی رغم هشدارهای وکلای خود استفاده کرده است. شواهدی وجود دارد که نشان میدهد Runway فیلمهای Netflix و Disney را برای آموزش سیستمهای تولید ویدیو خود تهیه کرده است. گزارش شده است که OpenAI ویدیوهای YouTube را بدون اطلاع سازندگان برای توسعه مدلهایی از جمله GPT-4 رونویسی کرده است.
همانطور که قبلاً نوشتهایم، نتیجهای وجود دارد که در آن فروشندگان مولد هوش مصنوعی از افشای دادههای آموزش سیستمی یا بدون اسکاتلند خارج میشوند یا خیر. دادگاه ها ممکن است در نهایت از طرفداران استفاده منصفانه حمایت کنند و تصمیم بگیرند که هوش مصنوعی مولد به اندازه کافی دگرگون کننده است - و نه موتور سرقت ادبی که نیویورک تایمز و سایر شاکیان ادعا می کنند که چنین است.
در یک سناریوی دراماتیک تر، AB-2013 می تواند منجر به این شود که فروشندگان مدل های خاصی را در کالیفرنیا خودداری کنند، یا نسخه هایی از مدل ها را برای کالیفرنیایی ها منتشر کنند که فقط در مورد استفاده منصفانه و مجموعه داده های دارای مجوز آموزش دیده اند. برخی از فروشندگان ممکن است تصمیم بگیرند که ایمنترین اقدام در مورد AB-2013، اقدامی است که از به خطر انداختن افشاگریها و شکایتهای قانونی جلوگیری میکند.
با فرض اینکه قانون به چالش کشیده نشود و/یا باقی بماند، ما تصویر روشنی را تا مهلت AB-2013 فقط بیش از یک سال بعد خواهیم داشت.
ارسال نظر