سایت خبرکاو

جستجوگر هوشمند اخبار و مطالب فناوری

Reddit می‌گوید که تاکنون ۲۰۳ میلیون دلار با مجوز داده‌های خود به دست آورده است

چشم انداز Reddit در حالی که به سمت فهرست شدن در بازار سهام می رود، بسیار بیشتر از آنچه که پیش بینی می شود به روابط با فروشندگان هوش مصنوعی مانند OpenAI مربوط می شود. ردیت در دفترچه IPO خود که امروز در کمیسیون بورس و اوراق بهادار ایالات متحده ثبت کرد، بارها تاکید کرد که فکر می کند چقدر از توافق نامه های مجوز داده با شرکت هایی که مدل های هوش مصنوعی را در بیش از ...

چشم انداز Reddit در حالی که به سمت فهرست شدن در بازار سهام می رود، بسیار بیشتر از آنچه که پیش بینی می شود به روابط با فروشندگان هوش مصنوعی مانند OpenAI مربوط می شود.

ردیت در دفترچه IPO خود که امروز در کمیسیون بورس و اوراق بهادار ایالات متحده ثبت کرد، بارها تاکید کرد که فکر می کند چقدر از توافق نامه های مجوز داده با شرکت هایی که مدل های هوش مصنوعی را در بیش از 1 میلیارد پست و بیش از 16 پست خود آموزش می دهند، سود می برد - و به دست آورده است. میلیارد کامنت

در این دفترچه آمده است: "در ژانویه 2024، ما به ترتیبات صدور مجوز داده با ارزش کل قرارداد 203.0 میلیون دلار و شرایط بین دو تا سه سال وارد شدیم." ما انتظار داریم حداقل 66.4 میلیون دلار درآمد در طول سال منتهی به 31 دسامبر 2024 و بقیه پس از آن شناسایی شود.

اکنون، این که کدام فروشنده‌های هوش مصنوعی تاکنون مجوز داده‌های Reddit را صادر کرده‌اند، یک معما است. اوایل این هفته، بلومبرگ و رویترز گزارش دادند که یک «شرکت بزرگ هوش مصنوعی بدون نام» - احتمالاً گوگل - یک قرارداد مجوز به ارزش حدود 60 میلیون دلار به صورت سالانه منعقد کرده است. اما OpenAI نیز مشتری شگفت‌انگیزی نخواهد بود، به‌ویژه از آنجایی که سام آلتمن، مدیر عامل OpenAI، 8.7 درصد از سهام Reddit را دارد (او را به سومین سهامدار بزرگ تبدیل می‌کند) و زمانی یکی از اعضای هیئت مدیره شرکت بود.

چرا داده های Reddit ارزشمند هستند؟ همانطور که Reddit توضیح می‌دهد، مدل‌های هوش مصنوعی از مثال‌ها برای ساخت مقاله‌ها، کدها، ایمیل‌ها، مقاله‌ها و موارد دیگر «یاد می‌گیرند» و فروشندگانی مانند OpenAI میلیون‌ها تا میلیاردها نمونه از این نمونه‌ها را برای اضافه کردن به مجموعه‌های آموزشی خود در وب می‌خراشند. برخی از نمونه ها در حوزه عمومی هستند. دیگران نیستند، یا - در مورد محتوای Reddit - تحت مجوزهای محدود کننده ای هستند که به نقل قول یا اشکال خاصی از جبران نیاز دارند.

Reddit قبلاً دسترسی به داده های خود را برای اهداف آموزش هوش مصنوعی نمی داد. اما سال گذشته مسیر خود را معکوس کرد و استدلال کرد که داده‌های آن نباید - به قول مدیرعامل استیو هافمن - «به برخی از بزرگترین شرکت‌های جهان به صورت رایگان [در اختیار] قرار گیرد».

بروشور ادامه می‌دهد: «APIهای داده [ما] می‌توانند دسترسی هم‌زمان به موضوعات در حال تحول و پویا مانند ورزش، فیلم، اخبار، مد و آخرین روندها را فراهم کنند.» ما معتقدیم که مجموعه عظیم داده‌ها و دانش مکالمه Reddit همچنان در آموزش و بهبود مدل‌های زبانی بزرگ نقش خواهد داشت. همانطور که محتوای ما به روز می شود و روزانه رشد می کند، انتظار داریم مدل ها بخواهند این ایده های جدید را منعکس کنند و آموزش خود را با استفاده از داده های Reddit به روز کنند.

تولیدکنندگان محتوا، از کتابخانه‌های رسانه‌های سهام گرفته تا ناشران اخبار، به طور فزاینده‌ای به قراردادهای مجوز داده با فروشندگان هوش مصنوعی روی می‌آورند زیرا چت‌ربات‌هایی مانند ChatGPT OpenAI و Gemini Google ترافیک را تهدید می‌کنند. یک مدل اخیر از آتلانتیک نشان داد که اگر موتور جستجویی مانند گوگل هوش مصنوعی را در جستجو ادغام کند، در 75 درصد مواقع بدون نیاز به کلیک روی وب‌سایت خود، به درخواست کاربر پاسخ می‌دهد.

فروشندگان نیز به نوبه خود تشویق شده اند تا قراردادهای مجوز را دنبال کنند زیرا با انبوهی از دعاوی حقوقی مواجه هستند که ادعا می کنند هیچ توجیه قانونی برای آموزش مدل های خود بر روی داده ها بدون اجازه یا پرداخت ندارند. اخیراً نیویورک تایمز OpenAI را متهم کرد که با استفاده از آثار خود، رقبای ناشر اخبار را به طور مؤثر ایجاد می کند و به تجارت آن آسیب می رساند.

OpenAI، برای نمونه، با گالری تصاویر Shutterstock و همچنین ناشران از جمله Axel Springer، مالک Politico و Business Insider، قراردادهایی منعقد کرده است. با این حال گزارش شده است که مجوزها بسیار کوچک هستند - بیش از 5 میلیون دلار در سال.

خبرکاو