پرونده های دادگاه نشان می دهد که کارکنان متا در مورد استفاده از محتوای دارای حق چاپ برای آموزش هوش مصنوعی بحث می کنند


طبق اسناد دادگاهی که روز پنجشنبه مهر و موم نشده بود، برای سالها، کارمندان متا به طور داخلی درباره استفاده از آثار دارای حق چاپ که از راههای مشکوک قانونی به دست آمدهاند برای آموزش مدلهای هوش مصنوعی شرکت بحث میکنند.
این اسناد توسط شاکیان پرونده Kadrey v. Meta، یکی از بسیاری از مناقشات مربوط به حق نسخه برداری هوش مصنوعی ارائه شده است که به آرامی در سیستم دادگاه ایالات متحده پیچید. متهم، متا، ادعا می کند که مدل های آموزشی در مورد آثار محافظت شده از IP، به ویژه کتاب ها، "استفاده منصفانه" است. شاکیان، که شامل نویسندگان سارا سیلورمن و تا-نهیسی کوتس میشوند، مخالف هستند.
مطالب قبلی ارائه شده در شکایت ادعا می کرد که مارک زاکربرگ، مدیر عامل متا، به تیم هوش مصنوعی متا اجازه داد تا در مورد محتوای دارای حق چاپ آموزش ببینند و متا مذاکرات مربوط به مجوز داده های آموزشی هوش مصنوعی را با ناشران کتاب متوقف کرد. اما پروندههای جدید، که بیشتر آنها بخشهایی از گفتگوهای کاری داخلی بین کارکنان متا را نشان میدهند، واضحترین تصویری را نشان میدهند که چگونه متا ممکن است از دادههای دارای حق چاپ برای آموزش مدلهای خود، از جمله مدلهای خانواده Llama شرکت استفاده کند.
در یک گفتگو، کارمندان متا، از جمله ملانی کامبادور، مدیر ارشد تیم تحقیقاتی مدل لاما متا، در مورد مدلهای آموزشی در مورد کارهایی که میدانستند ممکن است از نظر قانونی مضر باشند، بحث کردند.
خاویر مارتینت، مهندس پژوهشی متا، در گفتگوی مورخ فوریه 2023، با توجه به پروندهها، نوشت: «نظر من این است (در خط «استغفار، نه برای اجازه»): ما سعی میکنیم کتابها را به دست آوریم و آنها را به مدیران اجرایی افزایش دهیم تا آنها تماس بگیرند. [به همین دلیل است که آنها این سازمان gen ai را برای [sic] راهاندازی کردند: بنابراین ما میتوانیم کمتر ریسک گریز باشیم.»
مارتینت ایده خرید کتاب های الکترونیکی با قیمت های خرده فروشی را مطرح کرد تا یک مجموعه آموزشی بسازد به جای قطع قراردادهای مجوز با ناشران فردی. پس از اینکه یکی دیگر از کارکنان اشاره کرد که استفاده از مطالب غیرمجاز و دارای حق چاپ ممکن است زمینهای برای یک چالش قانونی باشد، مارتینت کار خود را دوبرابر کرد و استدلال کرد که "گزیلیون" استارتآپ احتمالاً قبلاً از کتابهای دزدی دریایی برای آموزش استفاده میکردند.
مارتینت نوشت: «منظورم بدترین حالت است: ما متوجه شدیم که بالاخره مشکلی ندارد، در حالی که یک استارتآپ گزیلیون فقط تنها کتاب را در بیتتورنت دزدی کرده است.» دوباره 2 سنت: تلاش برای انجام معاملات مستقیم با ناشران زمان زیادی می برد...
در همان گفتگو، کامبادور، که متا اشاره کرد که متا در حال مذاکره با پلتفرم میزبانی اسناد Scribd «و دیگران» برای مجوزها است، هشدار داد که در حالی که استفاده از «دادههای در دسترس عموم» برای آموزش مدل نیاز به تأییدیه دارد، وکلای متا نسبت به گذشته با چنین تأییدیههایی «کمتر محافظهکار» عمل میکنند.
کامبادور گفت: «بله، ما قطعاً نیاز به دریافت مجوزها یا تأییدیههای دادههای در دسترس عموم داریم.» اکنون تفاوت این است که ما پول بیشتر، وکلای بیشتر، کمک bizdev بیشتر، توانایی ردیابی سریع/افزایش سرعت برای افزایش سرعت داریم، و وکلا کمی محافظه کارانه در مورد تاییدیه ها عمل می کنند."
گفتگوهای لیبگن
در گفتگوی کاری دیگری که در پروندهها منتشر شد، کامبادور احتمالاً استفاده از Libgen را مورد بحث قرار میدهد، یک «جمعکننده پیوندها» که دسترسی به آثار دارای حق چاپ ناشران را به عنوان جایگزینی برای منابع دادهای که ممکن است متا مجوز میدهد، فراهم کند.
Libgen چندین بار مورد شکایت قرار گرفته است، دستور تعطیلی آن صادر شده و ده ها میلیون دلار به دلیل نقض حق چاپ جریمه شده است. یکی از همکاران کامبادور با یک اسکرین شات از یک نتیجه جستجوی Google برای Libgen که حاوی قطعه «نه، Libgen قانونی نیست» پاسخ داد.
به نظر می رسد برخی از تصمیم گیرندگان متا تحت این تصور بوده اند که استفاده نکردن از Libgen برای آموزش مدل می تواند به شدت به رقابت متا در مسابقه هوش مصنوعی آسیب برساند.
Sony Theakanath، مدیر مدیریت محصول در Meta، در ایمیلی خطاب به Joelle Pineau، معاون هوش مصنوعی متا، Libgen را «ضروری برای برآورده کردن اعداد SOTA در همه دستهها» خواند و با اشاره به برتری در بهترین مدلهای هوش مصنوعی (SOTA) و مقولههای معیار، گفت.
Theakanath همچنین در ایمیلی که برای کمک به کاهش قرار گرفتن در معرض قانونی متا در نظر گرفته شده است، «تخفیفهای» را بیان کرده است، از جمله حذف دادهها از Libgen که «به وضوح بهعنوان دزدی/دزدیده شده علامتگذاری شدهاند» و همچنین صرفاً عدم استناد به استفاده عمومی. همانطور که Theakanath گفت: "ما استفاده از مجموعه داده های Libgen که برای آموزش استفاده می شود را فاش نمی کنیم."
طبق پروندهها، در عمل، این کاهشها مستلزم بررسی فایلهای Libgen برای یافتن کلماتی مانند «دزدیده شده» یا «دزدان دریایی» بود.
در یک گفتگوی کاری، کامبادور اشاره کرد که تیم هوش مصنوعی متا نیز مدلها را تنظیم کرده است تا «از پیامهای مخاطرهآمیز IP جلوگیری کنند» - یعنی مدلها را طوری پیکربندی کرد که از پاسخ دادن به سؤالهایی مانند «بازتولید سه صفحه اول «هری پاتر و سنگ جادو» یا «به من بگویید روی کدام کتابهای الکترونیکی آموزش دیدهاید» خودداری کنند.
پرونده ها حاوی افشاگری های دیگری هستند که نشان می دهد متا ممکن است داده های Reddit را برای برخی از انواع آموزش های مدل، احتمالاً با تقلید از رفتار یک برنامه شخص ثالث به نام Pushshift، حذف کرده باشد. نکته قابل توجه، Reddit در آوریل 2023 گفت که قصد دارد از شرکتهای هوش مصنوعی برای دسترسی به دادهها برای آموزش مدل هزینهگیری کند.
در یک چت به تاریخ مارس 2024، چایا نایاک، مدیر مدیریت محصول در سازمان هوش مصنوعی متا، گفت که رهبری متا تصمیمات گذشته را در مورد مجموعههای آموزشی، از جمله تصمیم به استفاده نکردن از محتوای Quora یا کتابها و مقالات علمی دارای مجوز، برای اطمینان از اینکه مدلهای شرکت دادههای آموزشی کافی دارند، در نظر گرفته است.
نایاک اشاره کرد که مجموعه دادههای آموزشی شخص اول متا - پستهای فیسبوک و اینستاگرام، متنهای رونویسی شده از ویدیوها در پلتفرمهای متا، و پیامهای متا برای کسب و کار خاص - به سادگی کافی نبودند. او نوشت: "[ما] به داده های بیشتری نیاز داریم."
شاکیان پرونده Kadrey v. Meta از زمانی که پرونده در سال 2023 در دادگاه منطقه ای ایالات متحده برای ناحیه شمالی کالیفرنیا، بخش سانفرانسیسکو تشکیل شد، چندین بار شکایت خود را اصلاح کرده اند. آخرین ادعاها مبنی بر اینکه متا، در میان سایر ادعاها، برخی از کتاب های دزدی را با کتاب های دارای حق نسخه برداری ارجاع داده است یا خیر.
به عنوان نشانه ای از اینکه متا سهام حقوقی را تا چه حد بالا می داند، این شرکت دو قاضی دادگاه عالی از شرکت حقوقی Paul Weiss را به تیم دفاعی خود در این پرونده اضافه کرده است.
متا بلافاصله به درخواست اظهار نظر پاسخ نداد.
خبرکاو
ارسال نظر