متن خبر

نزدیک ترین رقیب انویدیا بار دیگر غول های ابری را در عملکرد هوش مصنوعی محو می کند. Cerebras Inference 75 برابر سریعتر از AWS، 32 برابر سریعتر از Google در Llama 3.1 405B است.

نزدیک ترین رقیب انویدیا بار دیگر غول های ابری را در عملکرد هوش مصنوعی محو می کند. Cerebras Inference 75 برابر سریعتر از AWS، 32 برابر سریعتر از Google در Llama 3.1 405B است.

شناسهٔ خبر: 829285 -




مغزهای WSE-3
(اعتبار تصویر: Cerebras)

Cerebras به 969 توکن در ثانیه در Llama 3.1 405B می رسد، 75 برابر سریعتر از AWS

ادعای تاخیر 240 میلی‌ثانیه در صنعت، دو برابر سریع‌تر از Google Vertex

Cerebras Inference بر روی CS-3 با پردازنده WSE-3 AI اجرا می شود


Cerebras Systems او میگوید با مدل متا Llama 3.1 405B معیار جدیدی در عملکرد هوش مصنوعی تعیین کرده است و به سرعت تولید بی‌سابقه 969 توکن در ثانیه دست یافته است.

شرکت بنچمارک شخص ثالث Artificial Analysis ادعا کرده است که این عملکرد تا 75 برابر سریع‌تر از ارائه‌های مبتنی بر GPU از hyperscalerهای بزرگ است. تقریباً شش برابر سریع‌تر از SambaNova با 164 توکن در ثانیه، بیش از 14 برابر سریع‌تر از Google Vertex با 30 توکن در ثانیه و بسیار از Azure با 20 توکن در ثانیه و AWS با 13 توکن در ثانیه پیشی گرفت.

علاوه بر این، این سیستم سریع‌ترین زمان را برای اولین توکن در جهان نشان داد، با سرعت تنها 240 میلی‌ثانیه - تقریباً دو برابر سریع‌تر از Google Vertex با 430 میلی‌ثانیه و بسیار جلوتر از AWS با 1770 میلی‌ثانیه.

پیشروی خود را گسترش می دهد

اندرو فلدمن، یکی از بنیانگذاران و مدیرعامل سربراس، بيان کرد : «سربراس رکورد جهانی را در عملکرد Llama 3.1 8B و 70B دارد، و با این اعلام، ما در حال افزایش امتیاز خود به Llama 3.1 405B هستیم - ارائه 969 توکن در ثانیه».

"سربراس با اجرای بزرگترین مدل‌ها با سرعت فوری، پاسخ‌های بلادرنگ را از مدل پیشرو مرز باز جهان امکان‌پذیر می‌کند. این موارد استفاده جدید قدرتمندی از جمله استدلال و همکاری چند عامل را در سراسر چشم‌انداز هوش مصنوعی باز می‌کند."

سیستم استنتاج Cerebras، که توسط ابررایانه CS-3 و ویفر مقیاس موتور 3 (WSE-3) طراحی شده است، از طول متن کامل 128K با دقت 16 بیت پشتیبانی می کند. WSE-3 که به عنوان "سریعترین تراشه هوش مصنوعی در جهان" شناخته می شود، دارای 44 گیگابایت SRAM روی تراشه، چهار تریلیون ترانزیستور و 900000 هسته بهینه شده با هوش مصنوعی است. حداکثر عملکرد هوش مصنوعی 125 پتافلاپ و 7000 برابر پهنای باند حافظه Nvidia H100 است.

احمد الداله معاون GenAI متا نیز آخرین نتایج Cerebras را ستود و گفت: «استنتاج مقیاس‌پذیری برای سرعت بخشیدن به هوش مصنوعی و نوآوری منبع باز حیاتی است. به لطف کار باورنکردنی تیم سربراس، Llama 3.1 405B اکنون سریعترین مدل مرزی جهان است. از طریق قدرت Llama و رویکرد باز ما، استنتاج فوق‌العاده سریع و مقرون‌به‌صرفه اکنون بیش از هر زمان دیگری در دسترس توسعه‌دهندگان است. »

آزمایش‌های مشتریان برای سیستم در حال انجام است و در دسترس بودن عمومی برای سه ماهه اول 2025 در نظر گرفته شده است. قیمت از 6 دلار به ازای هر میلیون توکن ورودی و 12 دلار در هر میلیون توکن خروجی شروع می‌شود.

(اعتبار تصویر: Cerebras)

ثانیه <a href= به اولین توکن دریافت شده در Llama 3.1 405B" srcset="https://cdn.mos.cms.futurecdn.net/QGrvCeEEUX2Q32ehYyENU7-320-80.jpg 320w, https://cdn.mos.cms.futurecdn.net/QGrvCeEEUX2Q32ehYyENU7-480-80.jpg 480w, https://cdn.mos.cms.futurecdn.net/QGrvCeEEUX2Q32ehYyENU7-650-80.jpg 650w, https://cdn.mos.cms.futurecdn.net/QGrvCeEEUX2Q32ehYyENU7-970-80.jpg 970w, https://cdn.mos.cms.futurecdn.net/QGrvCeEEUX2Q32ehYyENU7-1024-80.jpg 1024w, https://cdn.mos.cms.futurecdn.net/QGrvCeEEUX2Q32ehYyENU7-1200-80.jpg 1200w" sizes="(min-width: 1000px) 970px, calc(100vw - 40px)" loading="lazy" data-pin-media="https://cdn.mos.cms.futurecdn.net/QGrvCeEEUX2Q32ehYyENU7.jpg">

(اعتبار تصویر: Cerebras)

شما هم ممکن است دوست داشته باشید

وین ویلیامز یک فریلنسر است که اخبار را برای TechRadar Pro می نویسد. او 30 سال است که در مورد کامپیوتر، فناوری و وب می نویسد. در آن زمان او برای اکثر مجلات PC در بریتانیا می نوشت و تعدادی از آنها را نیز راه اندازی، ویرایش و منتشر کرد.

خبرکاو

ارسال نظر




تبليغات ايهنا تبليغات ايهنا

تمامی حقوق مادی و معنوی این سایت متعلق به خبرکاو است و استفاده از مطالب با ذکر منبع بلامانع است