هاروارد و گوگل 1 میلیون کتاب با دامنه عمومی را به عنوان مجموعه داده آموزشی هوش مصنوعی منتشر می کنند

شناسهٔ خبر: 836606 - تاریخ: دسامبر 12, 2024

داده‌های آموزشی هوش مصنوعی دارای برچسب قیمت بالایی هستند که برای شرکت‌های فناوری با جیب عمیق مناسب‌تر است. به همین دلیل است که دانشگاه هاروارد قصد دارد مجموعه داده ای را منتشر کند که شامل حدود 1 میلیون کتاب با دامنه عمومی، ژانرها، زبان ها و نویسندگانی از جمله دیکنز، دانته و شکسپیر است که به دلیل سن آنها دیگر تحت حمایت حق چاپ نیستند.

مجموعه داده جدید هنوز در دسترس نیست و مشخص نیست چه زمانی و چگونه منتشر می شود. با این حال، این شامل کتاب‌هایی است که از پروژه قدیمی اسکن کتاب گوگل، Google Books مشتق شده‌اند، و پس Google در انتشار «این گنجینه بسیار گسترده» مشارکت خواهد داشت.

هاروارد برای اولین بار در ماه مارس ابتکار داده های سازمانی (IDI) را مورد کنایه قرار داد و برنامه های خود را برای ایجاد یک "مجرای قابل اعتماد برای داده های قانونی برای هوش مصنوعی" تشریح کرد. با این حال، تا زمان راه اندازی رسمی آن امروز، که با تأیید اینکه IDI شامل حمایت مالی مایکروسافت و OpenAI است، چیز زیادی از آن شنیده نشده است.

گرگ لپرت، مدیر اجرایی IDI، او میگوید این مجموعه داده‌ها برای «همسطح کردن زمین بازی» با باز کردن چنین مجموعه داده عظیمی برای هر کسی - از آزمایشگاه‌های تحقیقاتی گرفته تا استارت‌آپ‌های هوش مصنوعی - طراحی شده‌اند که می‌خواهند مدل‌های زبان بزرگ (LLM) خود را آموزش دهند.

خبرکاو

بیشتر بخوانید

یکی از بزرگ‌ترین نقض‌های داده‌ای که تاکنون جزئیاتی را در مورد میلیاردها کاربر فاش می‌کند – این چیزی است که تاکنون می‌دانیم

دیگر اخبار

مدل سرفیس را از کجا بفهمیم؟ [بررسی 4 روش تشخیص]