Ai2 مدلهای زبان جدیدی را منتشر میکند که با Meta’s Llama رقابت میکند
یک خانواده مدل جدید هوش مصنوعی در بلوک وجود دارد، و یکی از معدود مواردی است که میتوان آن را از ابتدا بازتولید کرد.
روز سهشنبه، Ai2، سازمان تحقیقاتی غیرانتفاعی هوش مصنوعی که توسط پل آلن فقید تأسیس شد، OLMo 2، دومین خانواده از مدلهای سری OLMo خود را منتشر کرد. (OLMo مخفف "Open Language Model.") در حالی که هیچ کمبودی در مدل های زبان "باز" برای انتخاب وجود ندارد (نگاه کنید به: Meta's Llama)، OLMo 2 با تعریف Open Source Initiative از هوش مصنوعی منبع باز مطابقت دارد، یعنی ابزارها و داده های مورد استفاده. برای توسعه آن در دسترس عموم است.
ابتکار منبع باز، موسسه طولانی مدتی که هدفش تعریف و «مدیریت» همه چیزهای متن باز است، تعریف هوش مصنوعی منبع باز خود را در ماه اکتبر نهایی کرد. اما اولین مدل های OLMo که در ماه فوریه عرضه شدند، این معیار را نیز رعایت کردند.
AI2 در یک پست وبلاگ نوشت: "OLMo 2 [از شروع تا پایان] با داده های آموزشی باز و در دسترس، کد آموزشی منبع باز، دستور العمل های آموزشی قابل تکرار، ارزیابی های شفاف، نقاط بازرسی میانی و موارد دیگر توسعه یافت." ما امیدواریم با به اشتراک گذاری آشکار داده ها، دستور العمل ها و یافته های خود، منابع مورد نیاز برای کشف رویکردهای جدید و نوآورانه را در اختیار جامعه منبع باز قرار دهیم.
دو مدل در خانواده OLMo 2 وجود دارد: یکی با 7 میلیارد پارامتر (OLMo 7B) و دیگری با 13 میلیارد پارامتر (OLMo 13B). پارامترها تقریباً با مهارت های حل مسئله مدل مطابقت دارند و مدل هایی با پارامترهای بیشتر معمولاً بهتر از مدل هایی با پارامترهای کمتر عمل می کنند.
مانند بسیاری از مدل های زبان، OLMo 2 7B و 13B می توانند طیف وسیعی از وظایف مبتنی بر متن را انجام دهند، مانند پاسخ دادن به سؤالات، خلاصه کردن اسناد و نوشتن کد.
برای آموزش مدل ها، Ai2 از مجموعه داده ای از 5 تریلیون توکن استفاده کرد. توکن ها بیت هایی از داده های خام را نشان می دهند. 1 میلیون توکن برابر با 750000 کلمه است. مجموعه آموزشی شامل وبسایتهای «فیلتر شده برای کیفیت بالا»، مقالات دانشگاهی، تختههای بحث و پاسخ پرسش و پاسخ، و کتابهای کار ریاضی «هم مصنوعی و هم ساختهشده توسط انسان» بود.
Ai2 ادعا میکند که نتیجه مدلهایی است که رقابتی هستند، از نظر عملکرد، با مدلهای باز مانند نسخه Meta's Llama 3.1.
Ai2 می نویسد: «نه تنها بهبود چشمگیری در عملکرد در همه وظایف در مقایسه با مدل قبلی OLMo خود مشاهده می کنیم، بلکه به ویژه، OLMo 2 7B بهتر از LLama 3.1 8B عمل می کند. "OLMo 2 [نماینده] بهترین مدلهای زبان کاملاً باز تا به امروز است. "
مدل های OLMo 2 و تمام اجزای آن را می توانید از وب سایت Ai2 دانلود کنید. آنها تحت مجوز Apache 2.0 هستند، به این معنی که می توان از آنها به صورت تجاری استفاده کرد.
اخیراً بحثهایی در مورد ایمنی مدلهای باز مطرح شده است، مدلهای Llama که طبق گزارشها توسط محققان چینی برای توسعه ابزارهای دفاعی استفاده میشوند. وقتی در ماه فوریه از مهندس Ai2 Dirk Groeneveld پرسیدم که آیا نگران سوء استفاده از OLMo است یا خیر، او به من بيان کرد که معتقد است مزایا در نهایت بیشتر از مضرات آن است.
او گفت: "بله، ممکن است مدل های باز به طور نامناسب یا برای اهداف ناخواسته استفاده شوند." [با این حال، این رویکرد همچنین پیشرفتهای فنی را ارتقا میدهد که منجر به مدلهای اخلاقیتر میشود. یک پیش نیاز برای تأیید و تکرارپذیری است، زیرا این موارد تنها با دسترسی به پشته کامل امکان پذیر است. و تمرکز فزاینده قدرت را کاهش می دهد و دسترسی عادلانه تری ایجاد می کند.
ارسال نظر