Reddit میگوید که تاکنون ۲۰۳ میلیون دلار با مجوز دادههای خود به دست آورده است
چشم انداز Reddit در حالی که به سمت فهرست شدن در بازار سهام می رود، بسیار بیشتر از آنچه که پیش بینی می شود به روابط با فروشندگان هوش مصنوعی مانند OpenAI مربوط می شود.
ردیت در دفترچه IPO خود که امروز در کمیسیون بورس و اوراق بهادار ایالات متحده ثبت کرد، بارها تاکید کرد که فکر می کند چقدر از توافق نامه های مجوز داده با شرکت هایی که مدل های هوش مصنوعی را در بیش از 1 میلیارد پست و بیش از 16 پست خود آموزش می دهند، سود می برد - و به دست آورده است. میلیارد کامنت
در این دفترچه آمده است: "در ژانویه 2024، ما به ترتیبات صدور مجوز داده با ارزش کل قرارداد 203.0 میلیون دلار و شرایط بین دو تا سه سال وارد شدیم." ما انتظار داریم حداقل 66.4 میلیون دلار درآمد در طول سال منتهی به 31 دسامبر 2024 و بقیه پس از آن شناسایی شود.
اکنون، این که کدام فروشندههای هوش مصنوعی تاکنون مجوز دادههای Reddit را صادر کردهاند، یک معما است. اوایل این هفته، بلومبرگ و رویترز گزارش دادند که یک «شرکت بزرگ هوش مصنوعی بدون نام» - احتمالاً گوگل - یک قرارداد مجوز به ارزش حدود 60 میلیون دلار به صورت سالانه منعقد کرده است. اما OpenAI نیز مشتری شگفتانگیزی نخواهد بود، بهویژه از آنجایی که سام آلتمن، مدیر عامل OpenAI، 8.7 درصد از سهام Reddit را دارد (او را به سومین سهامدار بزرگ تبدیل میکند) و زمانی یکی از اعضای هیئت مدیره شرکت بود.
چرا داده های Reddit ارزشمند هستند؟ همانطور که Reddit توضیح میدهد، مدلهای هوش مصنوعی از مثالها برای ساخت مقالهها، کدها، ایمیلها، مقالهها و موارد دیگر «یاد میگیرند» و فروشندگانی مانند OpenAI میلیونها تا میلیاردها نمونه از این نمونهها را برای اضافه کردن به مجموعههای آموزشی خود در وب میخراشند. برخی از نمونه ها در حوزه عمومی هستند. دیگران نیستند، یا - در مورد محتوای Reddit - تحت مجوزهای محدود کننده ای هستند که به نقل قول یا اشکال خاصی از جبران نیاز دارند.
Reddit قبلاً دسترسی به داده های خود را برای اهداف آموزش هوش مصنوعی نمی داد. اما سال گذشته مسیر خود را معکوس کرد و استدلال کرد که دادههای آن نباید - به قول مدیرعامل استیو هافمن - «به برخی از بزرگترین شرکتهای جهان به صورت رایگان [در اختیار] قرار گیرد».
بروشور ادامه میدهد: «APIهای داده [ما] میتوانند دسترسی همزمان به موضوعات در حال تحول و پویا مانند ورزش، فیلم، اخبار، مد و آخرین روندها را فراهم کنند.» ما معتقدیم که مجموعه عظیم دادهها و دانش مکالمه Reddit همچنان در آموزش و بهبود مدلهای زبانی بزرگ نقش خواهد داشت. همانطور که محتوای ما به روز می شود و روزانه رشد می کند، انتظار داریم مدل ها بخواهند این ایده های جدید را منعکس کنند و آموزش خود را با استفاده از داده های Reddit به روز کنند.
تولیدکنندگان محتوا، از کتابخانههای رسانههای سهام گرفته تا ناشران اخبار، به طور فزایندهای به قراردادهای مجوز داده با فروشندگان هوش مصنوعی روی میآورند زیرا چترباتهایی مانند ChatGPT OpenAI و Gemini Google ترافیک را تهدید میکنند. یک مدل اخیر از آتلانتیک نشان داد که اگر موتور جستجویی مانند گوگل هوش مصنوعی را در جستجو ادغام کند، در 75 درصد مواقع بدون نیاز به کلیک روی وبسایت خود، به درخواست کاربر پاسخ میدهد.
فروشندگان نیز به نوبه خود تشویق شده اند تا قراردادهای مجوز را دنبال کنند زیرا با انبوهی از دعاوی حقوقی مواجه هستند که ادعا می کنند هیچ توجیه قانونی برای آموزش مدل های خود بر روی داده ها بدون اجازه یا پرداخت ندارند. اخیراً نیویورک تایمز OpenAI را متهم کرد که با استفاده از آثار خود، رقبای ناشر اخبار را به طور مؤثر ایجاد می کند و به تجارت آن آسیب می رساند.
OpenAI، برای نمونه، با گالری تصاویر Shutterstock و همچنین ناشران از جمله Axel Springer، مالک Politico و Business Insider، قراردادهایی منعقد کرده است. با این حال گزارش شده است که مجوزها بسیار کوچک هستند - بیش از 5 میلیون دلار در سال.
ارسال نظر