Ai2 مدل‌های زبان جدیدی را منتشر می‌کند که با Meta’s Llama رقابت می‌کند

شناسهٔ خبر: 820253 - تاریخ: نوامبر 27, 2024

یک خانواده مدل جدید هوش مصنوعی در بلوک وجود دارد، و یکی از معدود مواردی است که می‌توان آن را از ابتدا بازتولید کرد.

روز سه‌شنبه، Ai2، سازمان تحقیقاتی غیرانتفاعی هوش مصنوعی که توسط پل آلن فقید تأسیس شد، OLMo 2، دومین خانواده از مدل‌های سری OLMo خود را منتشر کرد. (OLMo مخفف "Open Language Model.") در حالی که هیچ کمبودی در مدل های زبان "باز" برای انتخاب وجود ندارد (نگاه کنید به: Meta's Llama)، OLMo 2 با تعریف Open Source Initiative از هوش مصنوعی منبع باز مطابقت دارد، یعنی ابزارها و داده های مورد استفاده. برای توسعه آن در دسترس عموم است.

ابتکار منبع باز، موسسه طولانی مدتی که هدفش تعریف و «مدیریت» همه چیزهای متن باز است، تعریف هوش مصنوعی منبع باز خود را در ماه اکتبر نهایی کرد. اما اولین مدل های OLMo که در ماه فوریه عرضه شدند، این معیار را نیز رعایت کردند.

AI2 در یک پست وبلاگ نوشت: "OLMo 2 [از شروع تا پایان] با داده های آموزشی باز و در دسترس، کد آموزشی منبع باز، دستور العمل های آموزشی قابل تکرار، ارزیابی های شفاف، نقاط بازرسی میانی و موارد دیگر توسعه یافت." ما امیدواریم با به اشتراک گذاری آشکار داده ها، دستور العمل ها و یافته های خود، منابع مورد نیاز برای کشف رویکردهای جدید و نوآورانه را در اختیار جامعه منبع باز قرار دهیم.

دو مدل در خانواده OLMo 2 وجود دارد: یکی با 7 میلیارد پارامتر (OLMo 7B) و دیگری با 13 میلیارد پارامتر (OLMo 13B). پارامترها تقریباً با مهارت های حل مسئله مدل مطابقت دارند و مدل هایی با پارامترهای بیشتر معمولاً بهتر از مدل هایی با پارامترهای کمتر عمل می کنند.

مانند بسیاری از مدل های زبان، OLMo 2 7B و 13B می توانند طیف وسیعی از وظایف مبتنی بر متن را انجام دهند، مانند پاسخ دادن به سؤالات، خلاصه کردن اسناد و نوشتن کد.

برای آموزش مدل ها، Ai2 از مجموعه داده ای از 5 تریلیون توکن استفاده کرد. توکن ها بیت هایی از داده های خام را نشان می دهند. 1 میلیون توکن برابر با 750000 کلمه است. مجموعه آموزشی شامل وب‌سایت‌های «فیلتر شده برای کیفیت بالا»، مقالات دانشگاهی، تخته‌های بحث و پاسخ پرسش و پاسخ، و کتاب‌های کار ریاضی «هم مصنوعی و هم ساخته‌شده توسط انسان» بود.

Ai2 ادعا می‌کند که نتیجه مدل‌هایی است که رقابتی هستند، از نظر عملکرد، با مدل‌های باز مانند نسخه Meta's Llama 3.1.

Ai2 می نویسد: «نه تنها بهبود چشمگیری در عملکرد در همه وظایف در مقایسه با مدل قبلی OLMo خود مشاهده می کنیم، بلکه به ویژه، OLMo 2 7B بهتر از LLama 3.1 8B عمل می کند. "OLMo 2 [نماینده] بهترین مدل‌های زبان کاملاً باز تا به امروز است. "

مدل های OLMo 2 و تمام اجزای آن را می توانید از وب سایت Ai2 دانلود کنید. آنها تحت مجوز Apache 2.0 هستند، به این معنی که می توان از آنها به صورت تجاری استفاده کرد.

اخیراً بحث‌هایی در مورد ایمنی مدل‌های باز مطرح شده است، مدل‌های Llama که طبق گزارش‌ها توسط محققان چینی برای توسعه ابزارهای دفاعی استفاده می‌شوند. وقتی در ماه فوریه از مهندس Ai2 Dirk Groeneveld پرسیدم که آیا نگران سوء استفاده از OLMo است یا خیر، او به من بيان کرد که معتقد است مزایا در نهایت بیشتر از مضرات آن است.

بیشتر بخوانید

مجوز مهم مجلس به دولت برای تسویه تعهدات ارزی

او گفت: "بله، ممکن است مدل های باز به طور نامناسب یا برای اهداف ناخواسته استفاده شوند." [با این حال، این رویکرد همچنین پیشرفت‌های فنی را ارتقا می‌دهد که منجر به مدل‌های اخلاقی‌تر می‌شود. یک پیش نیاز برای تأیید و تکرارپذیری است، زیرا این موارد تنها با دسترسی به پشته کامل امکان پذیر است. و تمرکز فزاینده قدرت را کاهش می دهد و دسترسی عادلانه تری ایجاد می کند.