متن خبر

Google Gemini: هر آنچه که باید در مورد پلتفرم جدید هوش مصنوعی مولد بدانید

Google Gemini: هر آنچه که باید در مورد پلتفرم جدید هوش مصنوعی مولد بدانید

شناسهٔ خبر: 467981 -




گوگل در تلاش است تا با جمینی، مجموعه پرچم‌دار مدل‌ها، برنامه‌ها و سرویس‌های هوش مصنوعی تولیدی، موج ایجاد کند.

پس جمینی چیست؟ چطور می تونی از اون استفاده کنی؟ و چگونه در رقابت قرار می گیرد؟

برای اینکه راحت‌تر از آخرین پیشرفت‌های Gemini مطلع شوید، این راهنمای مفید را گردآوری کرده‌ایم که با انتشار مدل‌ها، ویژگی‌ها و اخبار جدید در مورد برنامه‌های گوگل برای جمینی، آن را به‌روزرسانی خواهیم کرد.

جمینی چیست؟

جمینی نسل بعدی مدل GenAI است که مدت‌ها وعده داده بود و توسط آزمایشگاه‌های تحقیقاتی هوش مصنوعی گوگل DeepMind و Google Research توسعه یافته است. در سه طعم موجود است:

جمینی اولترا ، کارآمدترین مدل جمینی.

جمینی پرو ، یک مدل جمینی "لایت".

Gemini Nano ، یک مدل «مقطر» کوچک‌تر که روی دستگاه‌های تلفن همراه مانند Pixel 8 Pro اجرا می‌شود.

همه مدل‌های جمینی به گونه‌ای آموزش داده شده‌اند که «چند وجهی بومی» باشند - به عبارت دیگر، قادر به کار کردن و استفاده بیشتر از کلمات نیستند. آنها از قبل آموزش دیده بودند و روی انواع صدا، تصاویر و ویدئوها، مجموعه بزرگی از پایگاه های کد و متن به زبان های مختلف تنظیم شده بودند.

این موضوع Gemini را از مدل هایی مانند LaMDA خود گوگل که منحصراً بر روی داده های متنی آموزش داده شده بود، متمایز می کند. LaMDA نمی‌تواند چیزی غیر از متن را بفهمد یا تولید کند (مثلاً مقاله‌ها، پیش‌نویس‌های ایمیل)، اما در مورد مدل‌های Gemini اینطور نیست.

تفاوت بین برنامه های Gemini و مدل های Gemini چیست؟

بارد گوگل

اعتبار تصویر: گوگل

گوگل، بار دیگر ثابت کرد که فاقد مهارت در برندسازی است، از همان ابتدا مشخص نکرد که Gemini جدا و متمایز از برنامه‌های Gemini در وب و موبایل (بارد سابق) است. برنامه‌های Gemini صرفاً رابطی هستند که از طریق آن می‌توان به برخی از مدل‌های Gemini دسترسی داشت - آن را به عنوان یک مشتری برای GenAI Google در نظر بگیرید.

اتفاقاً، برنامه‌ها و مدل‌های Gemini نیز کاملاً مستقل از Imagen 2 هستند، مدل متن به تصویر Google که در برخی از ابزارها و محیط‌های توسعه‌دهنده این شرکت موجود است.

جوزا چه کاری می تواند انجام دهد؟

از آنجایی که مدل‌های Gemini چندوجهی هستند، در تئوری می‌توانند طیف وسیعی از وظایف چندوجهی را انجام دهند، از رونویسی گفتار گرفته تا زیرنویس کردن تصاویر و فیلم‌ها تا تولید آثار هنری. برخی از این قابلیت‌ها هنوز به مرحله محصول رسیده‌اند (در ادامه در مورد آن توضیح خواهیم داد)، و گوگل به همه آنها - و بیشتر - در آینده‌ای نه چندان دور قول می‌دهد.

البته، کمی سخت است که این شرکت را به قول خودش قبول کند.

گوگل با عرضه اولیه Bard به طور جدی کم عرضه شد. و اخیراً با ویدیویی که ظاهراً توانایی‌های جمینی را نشان می‌دهد، پرهایش را به هم می‌ریزد که معلوم شد به شدت تحت مراقبت قرار گرفته و کم و بیش آرزومند بوده است.

با این حال، با فرض اینکه گوگل کم و بیش در ادعاهای خود صادق است، در اینجا آنچه که سطوح مختلف Gemini می توانند پس از رسیدن به پتانسیل کامل خود انجام دهند، آمده است:

جمینی اولترا

گوگل می گوید که Gemini Ultra – به لطف چندوجهی بودن آن – می تواند برای کمک به مواردی مانند تکالیف فیزیک، حل مسائل گام به گام در یک کاربرگ و اشاره به اشتباهات احتمالی در پاسخ های از قبل پر شده استفاده شود.

گوگل می گوید Gemini Ultra می تواند برای کارهایی مانند شناسایی مقالات علمی مرتبط با یک مشکل خاص - استخراج اطلاعات از آن مقالات و "به روز رسانی" نمودار از یکی با ایجاد فرمول های لازم برای ایجاد مجدد نمودار با داده های جدیدتر استفاده شود. .

همانطور که قبلا اشاره شد، Gemini Ultra از نظر فنی از تولید تصویر پشتیبانی می کند. اما این قابلیت هنوز به نسخه تولید شده این مدل راه پیدا نکرده است - شاید به این دلیل که مکانیسم پیچیده تر از نحوه تولید تصاویر برنامه هایی مانند ChatGPT است. جمینی به‌جای درخواست‌ها به یک تولیدکننده تصویر (مانند DALL-E 3، در مورد ChatGPT)، تصاویر را به‌صورت «بومی» و بدون مرحله‌ای میانجی خروجی می‌کند.

Gemini Ultra به‌عنوان یک API از طریق Vertex AI، پلتفرم توسعه‌دهنده هوش مصنوعی کاملاً مدیریت‌شده Google، و AI Studio، ابزار مبتنی بر وب Google برای توسعه‌دهندگان برنامه‌ها و پلتفرم‌ها در دسترس است. همچنین برنامه های Gemini را تقویت می کند - اما نه به صورت رایگان. دسترسی به Gemini Ultra از طریق چیزی که Google آن را Gemini Advanced می نامد، مستلزم اشتراک در Google One AI Premium Plan با قیمت 20 دلار در ماه است.

طرح AI Premium همچنین Gemini را به حساب گسترده‌تر Google Workspace شما متصل می‌کند - ایمیل‌های فکری در Gmail، اسناد در Docs، ارائه‌ها در Sheets و ضبط‌های Google Meet. مثلاً برای خلاصه کردن ایمیل‌ها یا ثبت یادداشت‌های Gemini در طول تماس ویدیویی مفید است.

جمینی پرو

گوگل می گوید که Gemini Pro نسبت به LaMDA در توانایی های استدلال، برنامه ریزی و درک آن پیشرفت کرده است.

یک مطالعه مستقل توسط محققان Carnegie Mellon و BerriAI نشان داد که نسخه اولیه Gemini Pro در واقع بهتر از GPT-3.5 OpenAI در مدیریت زنجیره های استدلال طولانی تر و پیچیده تر بود. اما این مطالعه همچنین نشان داد که مانند همه مدل‌های زبان بزرگ، این نسخه از Gemini Pro به‌ویژه با مشکلات ریاضی شامل چندین رقم دست و پنجه نرم می‌کرد و کاربران نمونه‌هایی از استدلال بد و اشتباهات آشکار را پیدا کردند.

با این حال، گوگل وعده درمان را داده است - و اولین نسخه به شکل Gemini 1.5 Pro ارائه شد.

Gemini 1.5 Pro که به‌عنوان جایگزینی طراحی شده است، در بسیاری از زمینه‌ها در مقایسه با نسل قبلی خود بهبود یافته است، که شاید اصلی ترین آن در میزان داده‌ای است که می‌تواند پردازش کند. Gemini 1.5 Pro می‌تواند در حدود 700000 کلمه یا 30000 خط کد بنویسد - 35 برابر مقداری که Gemini 1.0 Pro می‌تواند تحمل کند. و - مدل چندوجهی است - به متن محدود نمی شود. Gemini 1.5 Pro می‌تواند تا 11 ساعت صدا یا یک ساعت ویدیو را به زبان‌های مختلف، هرچند آهسته، تجزیه و تحلیل کند (به عنوان مثال، جستجوی صحنه‌ای در یک ویدیوی یک ساعته 30 ثانیه تا یک دقیقه پردازش طول می‌کشد).

Gemini 1.5 Pro در ماه آوریل وارد پیش نمایش عمومی Vertex AI شد.

یک نقطه پایانی اضافی، Gemini Pro Vision، می‌تواند متن و تصاویر - از جمله عکس‌ها و ویدیوها - را پردازش کند و متن را مطابق با مدل GPT-4 OpenAI با مدل Vision تولید کند.

جوزا

استفاده از Gemini Pro در Vertex AI. اعتبار تصویر: Gemini

در Vertex AI، توسعه‌دهندگان می‌توانند Gemini Pro را در زمینه‌های خاص سفارشی کنند و از موارد با استفاده از فرآیند تنظیم دقیق یا «زمین‌سازی» استفاده کنند. Gemini Pro همچنین می تواند به API های خارجی و شخص ثالث برای انجام اقدامات خاص متصل شود.

در استودیوی هوش مصنوعی، جریان‌های کاری برای ایجاد اعلان‌های چت ساختاریافته با استفاده از Gemini Pro وجود دارد. توسعه دهندگان به هر دو نقطه پایانی Gemini Pro و Gemini Pro Vision دسترسی دارند و می توانند دمای مدل را برای کنترل محدوده خلاقانه خروجی تنظیم کنند و مثال هایی برای ارائه دستورالعمل های لحن و سبک ارائه دهند - و همچنین تنظیمات ایمنی را تنظیم کنند.

جمینی نانو

Gemini Nano نسخه بسیار کوچک‌تری از مدل‌های Gemini Pro و Ultra است و به اندازه‌ای کارآمد است که به‌جای ارسال کار به سرور در جایی، مستقیماً روی (برخی) تلفن‌ها اجرا شود. تا کنون، چند ویژگی را در Pixel 8 Pro، Pixel 8 و Samsung Galaxy S24، از جمله Summarize in Recorder و Smart Reply در Gboard، ارائه کرده است.

برنامه Recorder که به کاربران اجازه می‌دهد دکمه‌ای را برای ضبط و رونویسی صدا فشار دهند، شامل خلاصه‌ای از مکالمات، مصاحبه‌ها، ارائه‌ها و سایر قطعه‌های ضبط‌شده شما توسط Gemini است. کاربران حتی اگر سیگنال یا اتصال Wi-Fi در دسترس نداشته باشند، این خلاصه‌ها را دریافت می‌کنند - و با اشاره به حفظ حریم خصوصی، هیچ داده‌ای از تلفن آن‌ها خارج نمی‌شود.

Gemini Nano همچنین در Gboard، برنامه صفحه کلید گوگل وجود دارد. در آنجا، قابلیتی به نام Smart Reply را تقویت می‌کند که به شما کمک می‌کند تا چیز بعدی را که می‌خواهید هنگام مکالمه در یک برنامه پیام‌رسانی بگویید، بیان کنید. گوگل او میگوید این ویژگی در ابتدا فقط با واتس‌اپ کار می‌کند، اما به مرور زمان به اپلیکیشن‌های بیشتری نیز می‌رسد.

و در برنامه پیام‌های Google در دستگاه‌های پشتیبانی‌شده، Nano Magic Compose را فعال می‌کند، که می‌تواند پیام‌هایی را به سبک‌هایی مانند «هیجان‌انگیز»، «رسمی» و «غزلی» ایجاد کند.

آیا Gemini بهتر از GPT-4 OpenAI است؟

گوگل چندین بار برتری Gemini در معیارها را تبلیغ کرده است و ادعا کرده است که Gemini Ultra در مورد «30 معیار از 32 معیار آکادمیک پرکاربرد مورد استفاده در تحقیق و توسعه مدل های زبانی بزرگ» از نتایج پیشرفته فعلی فراتر رفته است. این شرکت می گوید که Gemini 1.5 Pro، در عین حال، در برخی از سناریوها نسبت به Gemini Ultra در کارهایی مانند خلاصه کردن محتوا، طوفان فکری و نوشتن توانایی بیشتری دارد. احتمالاً این موضوع با عرضه مدل بعدی Ultra تغییر خواهد کرد.

اما با کنار گذاشتن این سوال که آیا معیارها واقعا مدل بهتری را نشان می‌دهند، امتیازاتی که گوگل به آن اشاره می‌کند به نظر می‌رسد تا حدی بهتر از مدل‌های متناظر OpenAI است. و - همانطور که قبلاً ذکر شد - برخی از برداشت‌های اولیه عالی نبوده‌اند، با کاربران و دانشگاهیان اشاره می‌کنند که نسخه قدیمی‌تر Gemini Pro تمایل دارد حقایق اساسی را اشتباه بگیرد، با ترجمه‌ها مشکل دارد و پیشنهادهای کدنویسی ضعیفی ارائه می‌دهد.

جمینی چقدر هزینه دارد؟

Gemini 1.5 Pro برای استفاده در برنامه‌های Gemini و در حال حاضر، AI Studio و Vertex AI رایگان است.

با این حال، هنگامی که Gemini 1.5 Pro از پیش نمایش در Vertex خارج شد، قیمت این مدل 0.0025 دلار به ازای هر کاراکتر خواهد بود در حالی که هزینه خروجی 0.00005 دلار برای هر کاراکتر خواهد بود. مشتریان Vertex به ازای هر 1000 کاراکتر (حدود 140 تا 250 کلمه) و در مورد مدل هایی مانند Gemini Pro Vision، به ازای هر تصویر (0.0025 دلار) پرداخت می کنند.

بیایید فرض کنیم یک مقاله 500 کلمه ای شامل 2000 کاراکتر است. خلاصه کردن آن مقاله با Gemini 1.5 Pro 5 دلار هزینه دارد. در همین حال، تولید مقاله ای با طول مشابه 0.1 دلار هزینه دارد.

قیمت اولترا هنوز اعلام نشده است.

کجا می توانید Gemini را امتحان کنید؟

جمینی پرو

ساده ترین مکان برای تجربه Gemini Pro در برنامه های Gemini است. Pro و Ultra به پرس و جوها به زبان های مختلفی پاسخ می دهند.

Gemini Pro و Ultra نیز به صورت پیش نمایش در Vertex AI از طریق یک API قابل دسترسی هستند. API فعلاً برای استفاده از "در محدوده" رایگان است و از مناطق خاصی از جمله اروپا و همچنین ویژگی هایی مانند عملکرد چت و فیلتر کردن پشتیبانی می کند.

در جاهای دیگر، Gemini Pro و Ultra را می‌توانید در AI Studio پیدا کنید. با استفاده از این سرویس، توسعه‌دهندگان می‌توانند درخواست‌ها و چت‌بات‌های مبتنی بر Gemini را تکرار کنند و سپس کلیدهای API را برای استفاده از آنها در برنامه‌های خود دریافت کنند - یا کد را به یک IDE با آپشن های کامل‌تر صادر کنند.

Code Assist (قبلاً Duet AI برای توسعه دهندگان)، مجموعه ابزارهای کمکی مبتنی بر هوش مصنوعی Google برای تکمیل و تولید کد، از مدل‌های Gemini استفاده می‌کند. توسعه‌دهندگان می‌توانند تغییرات «در مقیاس بزرگ» را در پایگاه‌های کد انجام دهند، به‌عنوان مثال، وابستگی‌های بین فایل‌ها را به‌روزرسانی کنند و تکه‌های بزرگی از کد را تحلیل کنند.

گوگل مدل‌های Gemini را به ابزارهای توسعه‌دهنده خود برای پلتفرم توسعه‌دهندگان موبایل Chrome و Firebase و ابزارهای ایجاد و مدیریت پایگاه داده خود آورده است. و محصولات امنیتی جدیدی را با پشتیبانی Gemini راه اندازی کرده است، مانند Gemini in Threat Intelligence، جزء پلتفرم امنیت سایبری Mandiant گوگل که می تواند بخش های زیادی از کدهای بالقوه مخرب را تجزیه و تحلیل کند و به کاربران اجازه دهد تا به زبان طبیعی برای تهدیدهای مداوم یا شاخص های سازش جستجو کنند.

خبرکاو

ارسال نظر




تبليغات ايهنا تبليغات ايهنا

تمامی حقوق مادی و معنوی این سایت متعلق به خبرکاو است و استفاده از مطالب با ذکر منبع بلامانع است