پرونده های دادگاه نشان می دهد که کارکنان متا در مورد استفاده از محتوای دارای حق چاپ برای آموزش هوش مصنوعی بحث می کنند

پرونده های دادگاه نشان می دهد که کارکنان متا در مورد استفاده از محتوای دارای حق چاپ برای آموزش هوش مصنوعی بحث می کنند

شناسهٔ خبر: 853965 - تاریخ: فوریه 22, 2025

طبق اسناد دادگاهی که روز پنجشنبه مهر و موم نشده بود، برای سال‌ها، کارمندان متا به طور داخلی درباره استفاده از آثار دارای حق چاپ که از راه‌های مشکوک قانونی به دست آمده‌اند برای آموزش مدل‌های هوش مصنوعی شرکت بحث می‌کنند.

این اسناد توسط شاکیان پرونده Kadrey v. Meta، یکی از بسیاری از مناقشات مربوط به حق نسخه برداری هوش مصنوعی ارائه شده است که به آرامی در سیستم دادگاه ایالات متحده پیچید. متهم، متا، ادعا می کند که مدل های آموزشی در مورد آثار محافظت شده از IP، به ویژه کتاب ها، "استفاده منصفانه" است. شاکیان، که شامل نویسندگان سارا سیلورمن و تا-نهیسی کوتس می‌شوند، مخالف هستند.

دیگر اخبار

اولین نگاه ما به Samsung Galaxy S24 FE ممکن است از یک پرونده FCC باشد

مطالب قبلی ارائه شده در شکایت ادعا می کرد که مارک زاکربرگ، مدیر عامل متا، به تیم هوش مصنوعی متا اجازه داد تا در مورد محتوای دارای حق چاپ آموزش ببینند و متا مذاکرات مربوط به مجوز داده های آموزشی هوش مصنوعی را با ناشران کتاب متوقف کرد. اما پرونده‌های جدید، که بیشتر آن‌ها بخش‌هایی از گفتگوهای کاری داخلی بین کارکنان متا را نشان می‌دهند، واضح‌ترین تصویری را نشان می‌دهند که چگونه متا ممکن است از داده‌های دارای حق چاپ برای آموزش مدل‌های خود، از جمله مدل‌های خانواده Llama شرکت استفاده کند.

بیشتر بخوانید

فعال شدن لینک شرکت فیلمسازان ایرانی در فستیوال «پنج»/ داوران معرفی شدند

در یک گفتگو، کارمندان متا، از جمله ملانی کامبادور، مدیر ارشد تیم تحقیقاتی مدل لاما متا، در مورد مدل‌های آموزشی در مورد کارهایی که می‌دانستند ممکن است از نظر قانونی مضر باشند، بحث کردند.

خاویر مارتینت، مهندس پژوهشی متا، در گفتگوی مورخ فوریه 2023، با توجه به پرونده‌ها، نوشت: «نظر من این است (در خط «استغفار، نه برای اجازه»): ما سعی می‌کنیم کتاب‌ها را به دست آوریم و آن‌ها را به مدیران اجرایی افزایش دهیم تا آنها تماس بگیرند. [به همین دلیل است که آنها این سازمان gen ai را برای [sic] راه‌اندازی کردند: بنابراین ما می‌توانیم کمتر ریسک گریز باشیم.»

مارتینت ایده خرید کتاب های الکترونیکی با قیمت های خرده فروشی را مطرح کرد تا یک مجموعه آموزشی بسازد به جای قطع قراردادهای مجوز با ناشران فردی. پس از اینکه یکی دیگر از کارکنان اشاره کرد که استفاده از مطالب غیرمجاز و دارای حق چاپ ممکن است زمینه‌ای برای یک چالش قانونی باشد، مارتینت کار خود را دوبرابر کرد و استدلال کرد که "گزیلیون" استارت‌آپ احتمالاً قبلاً از کتاب‌های دزدی دریایی برای آموزش استفاده می‌کردند.

مارتینت نوشت: «منظورم بدترین حالت است: ما متوجه شدیم که بالاخره مشکلی ندارد، در حالی که یک استارت‌آپ گزیلیون فقط تن‌ها کتاب را در بیت‌تورنت دزدی کرده است.» دوباره 2 سنت: تلاش برای انجام معاملات مستقیم با ناشران زمان زیادی می برد...

در همان گفتگو، کامبادور، که متا اشاره کرد که متا در حال مذاکره با پلتفرم میزبانی اسناد Scribd «و دیگران» برای مجوزها است، هشدار داد که در حالی که استفاده از «داده‌های در دسترس عموم» برای آموزش مدل نیاز به تأییدیه دارد، وکلای متا نسبت به گذشته با چنین تأییدیه‌هایی «کمتر محافظه‌کار» عمل می‌کنند.

کامبادور گفت: «بله، ما قطعاً نیاز به دریافت مجوزها یا تأییدیه‌های داده‌های در دسترس عموم داریم.» اکنون تفاوت این است که ما پول بیشتر، وکلای بیشتر، کمک bizdev بیشتر، توانایی ردیابی سریع/افزایش سرعت برای افزایش سرعت داریم، و وکلا کمی محافظه کارانه در مورد تاییدیه ها عمل می کنند."

گفتگوهای لیبگن

در گفتگوی کاری دیگری که در پرونده‌ها منتشر شد، کامبادور احتمالاً استفاده از Libgen را مورد بحث قرار می‌دهد، یک «جمع‌کننده پیوندها» که دسترسی به آثار دارای حق چاپ ناشران را به عنوان جایگزینی برای منابع داده‌ای که ممکن است متا مجوز می‌دهد، فراهم کند.

Libgen چندین بار مورد شکایت قرار گرفته است، دستور تعطیلی آن صادر شده و ده ها میلیون دلار به دلیل نقض حق چاپ جریمه شده است. یکی از همکاران کامبادور با یک اسکرین شات از یک نتیجه جستجوی Google برای Libgen که حاوی قطعه «نه، Libgen قانونی نیست» پاسخ داد.

به نظر می رسد برخی از تصمیم گیرندگان متا تحت این تصور بوده اند که استفاده نکردن از Libgen برای آموزش مدل می تواند به شدت به رقابت متا در مسابقه هوش مصنوعی آسیب برساند.

Sony Theakanath، مدیر مدیریت محصول در Meta، در ایمیلی خطاب به Joelle Pineau، معاون هوش مصنوعی متا، Libgen را «ضروری برای برآورده کردن اعداد SOTA در همه دسته‌ها» خواند و با اشاره به برتری در بهترین مدل‌های هوش مصنوعی (SOTA) و مقوله‌های معیار، گفت.

Theakanath همچنین در ایمیلی که برای کمک به کاهش قرار گرفتن در معرض قانونی متا در نظر گرفته شده است، «تخفیف‌های» را بیان کرده است، از جمله حذف داده‌ها از Libgen که «به وضوح به‌عنوان دزدی/دزدیده شده علامت‌گذاری شده‌اند» و همچنین صرفاً عدم استناد به استفاده عمومی. همانطور که Theakanath گفت: "ما استفاده از مجموعه داده های Libgen که برای آموزش استفاده می شود را فاش نمی کنیم."

طبق پرونده‌ها، در عمل، این کاهش‌ها مستلزم بررسی فایل‌های Libgen برای یافتن کلماتی مانند «دزدیده شده» یا «دزدان دریایی» بود.

در یک گفتگوی کاری، کامبادور اشاره کرد که تیم هوش مصنوعی متا نیز مدل‌ها را تنظیم کرده است تا «از پیام‌های مخاطره‌آمیز IP جلوگیری کنند» - یعنی مدل‌ها را طوری پیکربندی کرد که از پاسخ دادن به سؤال‌هایی مانند «بازتولید سه صفحه اول «هری پاتر و سنگ جادو» یا «به من بگویید روی کدام کتاب‌های الکترونیکی آموزش دیده‌اید» خودداری کنند.

پرونده ها حاوی افشاگری های دیگری هستند که نشان می دهد متا ممکن است داده های Reddit را برای برخی از انواع آموزش های مدل، احتمالاً با تقلید از رفتار یک برنامه شخص ثالث به نام Pushshift، حذف کرده باشد. نکته قابل توجه، Reddit در آوریل 2023 گفت که قصد دارد از شرکت‌های هوش مصنوعی برای دسترسی به داده‌ها برای آموزش مدل هزینه‌گیری کند.

در یک چت به تاریخ مارس 2024، چایا نایاک، مدیر مدیریت محصول در سازمان هوش مصنوعی متا، گفت که رهبری متا تصمیمات گذشته را در مورد مجموعه‌های آموزشی، از جمله تصمیم به استفاده نکردن از محتوای Quora یا کتاب‌ها و مقالات علمی دارای مجوز، برای اطمینان از اینکه مدل‌های شرکت داده‌های آموزشی کافی دارند، در نظر گرفته است.

نایاک اشاره کرد که مجموعه داده‌های آموزشی شخص اول متا - پست‌های فیس‌بوک و اینستاگرام، متن‌های رونویسی شده از ویدیوها در پلتفرم‌های متا، و پیام‌های متا برای کسب و کار خاص - به سادگی کافی نبودند. او نوشت: "[ما] به داده های بیشتری نیاز داریم."

شاکیان پرونده Kadrey v. Meta از زمانی که پرونده در سال 2023 در دادگاه منطقه ای ایالات متحده برای ناحیه شمالی کالیفرنیا، بخش سانفرانسیسکو تشکیل شد، چندین بار شکایت خود را اصلاح کرده اند. آخرین ادعاها مبنی بر اینکه متا، در میان سایر ادعاها، برخی از کتاب های دزدی را با کتاب های دارای حق نسخه برداری ارجاع داده است یا خیر.

به عنوان نشانه ای از اینکه متا سهام حقوقی را تا چه حد بالا می داند، این شرکت دو قاضی دادگاه عالی از شرکت حقوقی Paul Weiss را به تیم دفاعی خود در این پرونده اضافه کرده است.

متا بلافاصله به درخواست اظهار نظر پاسخ نداد.

خبرکاو