شبکه های عصبی بازگشتی (RNN) نوعی هوش مصنوعی هستند که عمدتاً در زمینه یادگیری عمیق استفاده می شود. بر خلاف شبکه های عصبی سنتی، RNN ها دارای حافظه ای هستند که اطلاعاتی را در مورد آنچه تاکنون محاسبه شده است، جمع آوری می کند. به عبارت دیگر، آنها از درک خود از ورودی های قبلی برای تأثیرگذاری بر خروجی که تولید خواهند کرد استفاده می کنند.
RNN ها "تکرار کننده" نامیده می شوند زیرا آنها وظیفه یکسانی را برای هر عنصر در یک دنباله انجام می دهند و خروجی آن به محاسبات قبلی وابسته است. RNN ها هنوز برای تامین انرژی فناوری های هوشمند مانند سیری اپل و ترنسلیت گوگل استفاده می شوند.
با این حال، با ظهور ترانسفورماتورهایی مانند ChatGPT ، چشم انداز پردازش زبان طبیعی (NLP) تغییر کرده است. در حالی که ترانسفورماتورها وظایف NLP را متحول کردند، حافظه و پیچیدگی محاسباتی آنها به صورت درجه دوم با طول توالی مقیاس شد و به منابع بیشتری نیاز داشت.
RWKV را وارد کنید
اکنون، یک پروژه منبع باز جدید، RWKV ، راه حل های امیدوارکننده ای را برای معمای قدرت GPU ارائه می دهد. این پروژه که توسط بنیاد لینوکس پشتیبانی میشود، با هدف کاهش شدید نیاز محاسباتی برای مدلهای یادگیری زبان در سطح GPT (LLM) به طور بالقوه تا 100 برابر است.
RNN ها مقیاس خطی را در حافظه و نیازهای محاسباتی نشان می دهند، اما به دلیل محدودیت در موازی سازی و مقیاس پذیری، برای مطابقت با عملکرد ترانسفورماتورها تلاش می کنند. اینجا جایی است که RWKV وارد عمل می شود.
RWKV یا مقدار کلیدی وزنی دریافت، یک معماری مدل جدید است که بازده آموزشی قابل موازی سازی ترانسفورماتورها را با استنتاج کارآمد RNN ترکیب می کند. نتیجه؟ مدلی که به منابع بسیار کمتری (VRAM، CPU، GPU و غیره) برای اجرا و آموزش نیاز دارد، در حالی که عملکرد با کیفیت بالا را حفظ می کند. همچنین به صورت خطی به هر طول زمینه ای مقیاس می شود و به طور کلی در زبان هایی غیر از انگلیسی بهتر آموزش داده می شود.
با وجود این ویژگی های امیدوارکننده، مدل RWKV بدون چالش نیست. به قالب بندی سریع حساس است و در کارهایی که نیاز به نگاه کردن به عقب دارند ضعیف تر است. با این حال، این مسائل در حال تحلیل هستند و مزایای بالقوه مدل بسیار بیشتر از محدودیت های فعلی است.
پیامدهای پروژه RWKV عمیق است. به جای نیاز به 100 GPU برای آموزش یک مدل LLM، یک مدل RWKV می تواند نتایج مشابهی را با کمتر از 10 GPU ارائه دهد. این نه تنها فناوری را در دسترس تر می کند، بلکه امکان پیشرفت های بیشتر را نیز باز می کند.
ارسال نظر