Cerebras به 969 توکن در ثانیه در Llama 3.1 405B می رسد، 75 برابر سریعتر از AWS
ادعای تاخیر 240 میلیثانیه در صنعت، دو برابر سریعتر از Google Vertex
Cerebras Inference بر روی CS-3 با پردازنده WSE-3 AI اجرا می شود
Cerebras Systems او میگوید با مدل متا Llama 3.1 405B معیار جدیدی در عملکرد هوش مصنوعی تعیین کرده است و به سرعت تولید بیسابقه 969 توکن در ثانیه دست یافته است.
شرکت بنچمارک شخص ثالث Artificial Analysis ادعا کرده است که این عملکرد تا 75 برابر سریعتر از ارائههای مبتنی بر GPU از hyperscalerهای بزرگ است. تقریباً شش برابر سریعتر از SambaNova با 164 توکن در ثانیه، بیش از 14 برابر سریعتر از Google Vertex با 30 توکن در ثانیه و بسیار از Azure با 20 توکن در ثانیه و AWS با 13 توکن در ثانیه پیشی گرفت.
دیگر اخبار
ویدیو تعمیرپذیری گلکسی A35 منتشر شد؛ نحوه جداسازی و مونتاژ قطعات داخلی دستگاه [تماشا کنید]
علاوه بر این، این سیستم سریعترین زمان را برای اولین توکن در جهان نشان داد، با سرعت تنها 240 میلیثانیه - تقریباً دو برابر سریعتر از Google Vertex با 430 میلیثانیه و بسیار جلوتر از AWS با 1770 میلیثانیه.
پیشروی خود را گسترش می دهد
اندرو فلدمن، یکی از بنیانگذاران و مدیرعامل سربراس، بيان کرد : «سربراس رکورد جهانی را در عملکرد Llama 3.1 8B و 70B دارد، و با این اعلام، ما در حال افزایش امتیاز خود به Llama 3.1 405B هستیم - ارائه 969 توکن در ثانیه».
"سربراس با اجرای بزرگترین مدلها با سرعت فوری، پاسخهای بلادرنگ را از مدل پیشرو مرز باز جهان امکانپذیر میکند. این موارد استفاده جدید قدرتمندی از جمله استدلال و همکاری چند عامل را در سراسر چشمانداز هوش مصنوعی باز میکند."
سیستم استنتاج Cerebras، که توسط ابررایانه CS-3 و ویفر مقیاس موتور 3 (WSE-3) طراحی شده است، از طول متن کامل 128K با دقت 16 بیت پشتیبانی می کند. WSE-3 که به عنوان "سریعترین تراشه هوش مصنوعی در جهان" شناخته می شود، دارای 44 گیگابایت SRAM روی تراشه، چهار تریلیون ترانزیستور و 900000 هسته بهینه شده با هوش مصنوعی است. حداکثر عملکرد هوش مصنوعی 125 پتافلاپ و 7000 برابر پهنای باند حافظه Nvidia H100 است.
احمد الداله معاون GenAI متا نیز آخرین نتایج Cerebras را ستود و گفت: «استنتاج مقیاسپذیری برای سرعت بخشیدن به هوش مصنوعی و نوآوری منبع باز حیاتی است. به لطف کار باورنکردنی تیم سربراس، Llama 3.1 405B اکنون سریعترین مدل مرزی جهان است. از طریق قدرت Llama و رویکرد باز ما، استنتاج فوقالعاده سریع و مقرونبهصرفه اکنون بیش از هر زمان دیگری در دسترس توسعهدهندگان است. »
آزمایشهای مشتریان برای سیستم در حال انجام است و در دسترس بودن عمومی برای سه ماهه اول 2025 در نظر گرفته شده است. قیمت از 6 دلار به ازای هر میلیون توکن ورودی و 12 دلار در هر میلیون توکن خروجی شروع میشود.
به اولین توکن دریافت شده در Llama 3.1 405B" srcset="https://cdn.mos.cms.futurecdn.net/QGrvCeEEUX2Q32ehYyENU7-320-80.jpg 320w, https://cdn.mos.cms.futurecdn.net/QGrvCeEEUX2Q32ehYyENU7-480-80.jpg 480w, https://cdn.mos.cms.futurecdn.net/QGrvCeEEUX2Q32ehYyENU7-650-80.jpg 650w, https://cdn.mos.cms.futurecdn.net/QGrvCeEEUX2Q32ehYyENU7-970-80.jpg 970w, https://cdn.mos.cms.futurecdn.net/QGrvCeEEUX2Q32ehYyENU7-1024-80.jpg 1024w, https://cdn.mos.cms.futurecdn.net/QGrvCeEEUX2Q32ehYyENU7-1200-80.jpg 1200w" sizes="(min-width: 1000px) 970px, calc(100vw - 40px)" loading="lazy" data-pin-media="https://cdn.mos.cms.futurecdn.net/QGrvCeEEUX2Q32ehYyENU7.jpg">
ارسال نظر