هاروارد و گوگل 1 میلیون کتاب با دامنه عمومی را به عنوان مجموعه داده آموزشی هوش مصنوعی منتشر می کنند
دادههای آموزشی هوش مصنوعی دارای برچسب قیمت بالایی هستند که برای شرکتهای فناوری با جیب عمیق مناسبتر است. به همین دلیل است که دانشگاه هاروارد قصد دارد مجموعه داده ای را منتشر کند که شامل حدود 1 میلیون کتاب با دامنه عمومی، ژانرها، زبان ها و نویسندگانی از جمله دیکنز، دانته و شکسپیر است که به دلیل سن آنها دیگر تحت حمایت حق چاپ نیستند.
مجموعه داده جدید هنوز در دسترس نیست و مشخص نیست چه زمانی و چگونه منتشر می شود. با این حال، این شامل کتابهایی است که از پروژه قدیمی اسکن کتاب گوگل، Google Books مشتق شدهاند، و پس Google در انتشار «این گنجینه بسیار گسترده» مشارکت خواهد داشت.
هاروارد برای اولین بار در ماه مارس ابتکار داده های سازمانی (IDI) را مورد کنایه قرار داد و برنامه های خود را برای ایجاد یک "مجرای قابل اعتماد برای داده های قانونی برای هوش مصنوعی" تشریح کرد. با این حال، تا زمان راه اندازی رسمی آن امروز، که با تأیید اینکه IDI شامل حمایت مالی مایکروسافت و OpenAI است، چیز زیادی از آن شنیده نشده است.
گرگ لپرت، مدیر اجرایی IDI، او میگوید این مجموعه دادهها برای «همسطح کردن زمین بازی» با باز کردن چنین مجموعه داده عظیمی برای هر کسی - از آزمایشگاههای تحقیقاتی گرفته تا استارتآپهای هوش مصنوعی - طراحی شدهاند که میخواهند مدلهای زبان بزرگ (LLM) خود را آموزش دهند.
ارسال نظر