100 برابر محاسبات کمتر با عملکرد LLM در سطح GPT: چگونه یک پروژه منبع باز کمی شناخته شده می تواند به حل معمای قدرت GPU کمک کند – RWKV امیدوارکننده به نظر می رسد اما چالش ها همچنان باقی می مانند

100 برابر محاسبات کمتر با عملکرد LLM در سطح GPT: چگونه یک پروژه منبع باز کمی شناخته شده می تواند به حل معمای قدرت GPU کمک کند – RWKV امیدوارکننده به نظر می رسد اما چالش ها همچنان باقی می مانند

شناسهٔ خبر: 450219 - تاریخ: فوریه 13, 2024

مهدی نوروزی

(اعتبار تصویر: Shutterstock / vs148)

شبکه های عصبی بازگشتی (RNN) نوعی هوش مصنوعی هستند که عمدتاً در زمینه یادگیری عمیق استفاده می شود. بر خلاف شبکه های عصبی سنتی، RNN ها دارای حافظه ای هستند که اطلاعاتی را در مورد آنچه تاکنون محاسبه شده است، جمع آوری می کند. به عبارت دیگر، آنها از درک خود از ورودی های قبلی برای تأثیرگذاری بر خروجی که تولید خواهند کرد استفاده می کنند.

RNN ها "تکرار کننده" نامیده می شوند زیرا آنها وظیفه یکسانی را برای هر عنصر در یک دنباله انجام می دهند و خروجی آن به محاسبات قبلی وابسته است. RNN ها هنوز برای تامین انرژی فناوری های هوشمند مانند سیری اپل و ترنسلیت گوگل استفاده می شوند.

با این حال، با ظهور ترانسفورماتورهایی مانند ChatGPT ، چشم انداز پردازش زبان طبیعی (NLP) تغییر کرده است. در حالی که ترانسفورماتورها وظایف NLP را متحول کردند، حافظه و پیچیدگی محاسباتی آنها به صورت درجه دوم با طول توالی مقیاس شد و به منابع بیشتری نیاز داشت.

RWKV را وارد کنید

اکنون، یک پروژه منبع باز جدید، RWKV ، راه حل های امیدوارکننده ای را برای معمای قدرت GPU ارائه می دهد. این پروژه که توسط بنیاد لینوکس پشتیبانی می‌شود، با هدف کاهش شدید نیاز محاسباتی برای مدل‌های یادگیری زبان در سطح GPT (LLM) به طور بالقوه تا 100 برابر است.

RNN ها مقیاس خطی را در حافظه و نیازهای محاسباتی نشان می دهند، اما به دلیل محدودیت در موازی سازی و مقیاس پذیری، برای مطابقت با عملکرد ترانسفورماتورها تلاش می کنند. اینجا جایی است که RWKV وارد عمل می شود.

RWKV یا مقدار کلیدی وزنی دریافت، یک معماری مدل جدید است که بازده آموزشی قابل موازی سازی ترانسفورماتورها را با استنتاج کارآمد RNN ترکیب می کند. نتیجه؟ مدلی که به منابع بسیار کمتری (VRAM، CPU، GPU و غیره) برای اجرا و آموزش نیاز دارد، در حالی که عملکرد با کیفیت بالا را حفظ می کند. همچنین به صورت خطی به هر طول زمینه ای مقیاس می شود و به طور کلی در زبان هایی غیر از انگلیسی بهتر آموزش داده می شود.

با وجود این ویژگی های امیدوارکننده، مدل RWKV بدون چالش نیست. به قالب بندی سریع حساس است و در کارهایی که نیاز به نگاه کردن به عقب دارند ضعیف تر است. با این حال، این مسائل در حال تحلیل هستند و مزایای بالقوه مدل بسیار بیشتر از محدودیت های فعلی است.

پیامدهای پروژه RWKV عمیق است. به جای نیاز به 100 GPU برای آموزش یک مدل LLM، یک مدل RWKV می تواند نتایج مشابهی را با کمتر از 10 GPU ارائه دهد. این نه تنها فناوری را در دسترس تر می کند، بلکه امکان پیشرفت های بیشتر را نیز باز می کند.

بیشتر از TechRadar Pro

وین ویلیامز یک فریلنسر است که اخبار را برای TechRadar Pro می نویسد. او 30 سال است که درباره کامپیوتر، فناوری و وب می نویسد. در آن زمان او برای اکثر مجلات PC در بریتانیا می نوشت و تعدادی از آنها را نیز راه اندازی، ویرایش و منتشر کرد.

بیشتر بخوانید

روزیاتو: میزان تولید جهانی طلا در ۲۰۰ سال اخیر بر اساس سهم کشورها + اینفوگرافیک

خبرکاو

دیگر اخبار

Pixel 8 Pro مدل‌های هوش مصنوعی گوگل را روی دستگاه اجرا می‌کند