Google Gemini: هر آنچه که باید در مورد پلتفرم جدید هوش مصنوعی مولد بدانید
گوگل در تلاش است تا با جمینی، مجموعه پرچمدار مدلها، برنامهها و سرویسهای هوش مصنوعی تولیدی، موج ایجاد کند.
پس جمینی چیست؟ چطور می تونی از اون استفاده کنی؟ و چگونه در رقابت قرار می گیرد؟
برای اینکه راحتتر از آخرین پیشرفتهای Gemini مطلع شوید، این راهنمای مفید را گردآوری کردهایم که با انتشار مدلها، ویژگیها و اخبار جدید در مورد برنامههای گوگل برای جمینی، آن را بهروزرسانی خواهیم کرد.
جمینی چیست؟
جمینی نسل بعدی مدل GenAI است که مدتها وعده داده بود و توسط آزمایشگاههای تحقیقاتی هوش مصنوعی گوگل DeepMind و Google Research توسعه یافته است. در سه طعم موجود است:
جمینی اولترا ، کارآمدترین مدل جمینی.
جمینی پرو ، یک مدل جمینی "لایت".
Gemini Nano ، یک مدل «مقطر» کوچکتر که روی دستگاههای تلفن همراه مانند Pixel 8 Pro اجرا میشود.
همه مدلهای جمینی به گونهای آموزش داده شدهاند که «چند وجهی بومی» باشند - به عبارت دیگر، قادر به کار کردن و استفاده بیشتر از کلمات نیستند. آنها از قبل آموزش دیده بودند و روی انواع صدا، تصاویر و ویدئوها، مجموعه بزرگی از پایگاه های کد و متن به زبان های مختلف تنظیم شده بودند.
این موضوع Gemini را از مدل هایی مانند LaMDA خود گوگل که منحصراً بر روی داده های متنی آموزش داده شده بود، متمایز می کند. LaMDA نمیتواند چیزی غیر از متن را بفهمد یا تولید کند (مثلاً مقالهها، پیشنویسهای ایمیل)، اما در مورد مدلهای Gemini اینطور نیست.
تفاوت بین برنامه های Gemini و مدل های Gemini چیست؟
گوگل، بار دیگر ثابت کرد که فاقد مهارت در برندسازی است، از همان ابتدا مشخص نکرد که Gemini جدا و متمایز از برنامههای Gemini در وب و موبایل (بارد سابق) است. برنامههای Gemini صرفاً رابطی هستند که از طریق آن میتوان به برخی از مدلهای Gemini دسترسی داشت - آن را به عنوان یک مشتری برای GenAI Google در نظر بگیرید.
اتفاقاً، برنامهها و مدلهای Gemini نیز کاملاً مستقل از Imagen 2 هستند، مدل متن به تصویر Google که در برخی از ابزارها و محیطهای توسعهدهنده این شرکت موجود است.
جوزا چه کاری می تواند انجام دهد؟
از آنجایی که مدلهای Gemini چندوجهی هستند، در تئوری میتوانند طیف وسیعی از وظایف چندوجهی را انجام دهند، از رونویسی گفتار گرفته تا زیرنویس کردن تصاویر و فیلمها تا تولید آثار هنری. برخی از این قابلیتها هنوز به مرحله محصول رسیدهاند (در ادامه در مورد آن توضیح خواهیم داد)، و گوگل به همه آنها - و بیشتر - در آیندهای نه چندان دور قول میدهد.
البته، کمی سخت است که این شرکت را به قول خودش قبول کند.
گوگل با عرضه اولیه Bard به طور جدی کم عرضه شد. و اخیراً با ویدیویی که ظاهراً تواناییهای جمینی را نشان میدهد، پرهایش را به هم میریزد که معلوم شد به شدت تحت مراقبت قرار گرفته و کم و بیش آرزومند بوده است.
با این حال، با فرض اینکه گوگل کم و بیش در ادعاهای خود صادق است، در اینجا آنچه که سطوح مختلف Gemini می توانند پس از رسیدن به پتانسیل کامل خود انجام دهند، آمده است:
جمینی اولترا
گوگل می گوید که Gemini Ultra – به لطف چندوجهی بودن آن – می تواند برای کمک به مواردی مانند تکالیف فیزیک، حل مسائل گام به گام در یک کاربرگ و اشاره به اشتباهات احتمالی در پاسخ های از قبل پر شده استفاده شود.
گوگل می گوید Gemini Ultra می تواند برای کارهایی مانند شناسایی مقالات علمی مرتبط با یک مشکل خاص - استخراج اطلاعات از آن مقالات و "به روز رسانی" نمودار از یکی با ایجاد فرمول های لازم برای ایجاد مجدد نمودار با داده های جدیدتر استفاده شود. .
همانطور که قبلا اشاره شد، Gemini Ultra از نظر فنی از تولید تصویر پشتیبانی می کند. اما این قابلیت هنوز به نسخه تولید شده این مدل راه پیدا نکرده است - شاید به این دلیل که مکانیسم پیچیده تر از نحوه تولید تصاویر برنامه هایی مانند ChatGPT است. جمینی بهجای درخواستها به یک تولیدکننده تصویر (مانند DALL-E 3، در مورد ChatGPT)، تصاویر را بهصورت «بومی» و بدون مرحلهای میانجی خروجی میکند.
Gemini Ultra بهعنوان یک API از طریق Vertex AI، پلتفرم توسعهدهنده هوش مصنوعی کاملاً مدیریتشده Google، و AI Studio، ابزار مبتنی بر وب Google برای توسعهدهندگان برنامهها و پلتفرمها در دسترس است. همچنین برنامه های Gemini را تقویت می کند - اما نه به صورت رایگان. دسترسی به Gemini Ultra از طریق چیزی که Google آن را Gemini Advanced می نامد، مستلزم اشتراک در Google One AI Premium Plan با قیمت 20 دلار در ماه است.
طرح AI Premium همچنین Gemini را به حساب گستردهتر Google Workspace شما متصل میکند - ایمیلهای فکری در Gmail، اسناد در Docs، ارائهها در Sheets و ضبطهای Google Meet. مثلاً برای خلاصه کردن ایمیلها یا ثبت یادداشتهای Gemini در طول تماس ویدیویی مفید است.
جمینی پرو
گوگل می گوید که Gemini Pro نسبت به LaMDA در توانایی های استدلال، برنامه ریزی و درک آن پیشرفت کرده است.
یک مطالعه مستقل توسط محققان Carnegie Mellon و BerriAI نشان داد که نسخه اولیه Gemini Pro در واقع بهتر از GPT-3.5 OpenAI در مدیریت زنجیره های استدلال طولانی تر و پیچیده تر بود. اما این مطالعه همچنین نشان داد که مانند همه مدلهای زبان بزرگ، این نسخه از Gemini Pro بهویژه با مشکلات ریاضی شامل چندین رقم دست و پنجه نرم میکرد و کاربران نمونههایی از استدلال بد و اشتباهات آشکار را پیدا کردند.
با این حال، گوگل وعده درمان را داده است - و اولین نسخه به شکل Gemini 1.5 Pro ارائه شد.
Gemini 1.5 Pro که بهعنوان جایگزینی طراحی شده است، در بسیاری از زمینهها در مقایسه با نسل قبلی خود بهبود یافته است، که شاید اصلی ترین آن در میزان دادهای است که میتواند پردازش کند. Gemini 1.5 Pro میتواند در حدود 700000 کلمه یا 30000 خط کد بنویسد - 35 برابر مقداری که Gemini 1.0 Pro میتواند تحمل کند. و - مدل چندوجهی است - به متن محدود نمی شود. Gemini 1.5 Pro میتواند تا 11 ساعت صدا یا یک ساعت ویدیو را به زبانهای مختلف، هرچند آهسته، تجزیه و تحلیل کند (به عنوان مثال، جستجوی صحنهای در یک ویدیوی یک ساعته 30 ثانیه تا یک دقیقه پردازش طول میکشد).
Gemini 1.5 Pro در ماه آوریل وارد پیش نمایش عمومی Vertex AI شد.
یک نقطه پایانی اضافی، Gemini Pro Vision، میتواند متن و تصاویر - از جمله عکسها و ویدیوها - را پردازش کند و متن را مطابق با مدل GPT-4 OpenAI با مدل Vision تولید کند.
در Vertex AI، توسعهدهندگان میتوانند Gemini Pro را در زمینههای خاص سفارشی کنند و از موارد با استفاده از فرآیند تنظیم دقیق یا «زمینسازی» استفاده کنند. Gemini Pro همچنین می تواند به API های خارجی و شخص ثالث برای انجام اقدامات خاص متصل شود.
در استودیوی هوش مصنوعی، جریانهای کاری برای ایجاد اعلانهای چت ساختاریافته با استفاده از Gemini Pro وجود دارد. توسعه دهندگان به هر دو نقطه پایانی Gemini Pro و Gemini Pro Vision دسترسی دارند و می توانند دمای مدل را برای کنترل محدوده خلاقانه خروجی تنظیم کنند و مثال هایی برای ارائه دستورالعمل های لحن و سبک ارائه دهند - و همچنین تنظیمات ایمنی را تنظیم کنند.
جمینی نانو
Gemini Nano نسخه بسیار کوچکتری از مدلهای Gemini Pro و Ultra است و به اندازهای کارآمد است که بهجای ارسال کار به سرور در جایی، مستقیماً روی (برخی) تلفنها اجرا شود. تا کنون، چند ویژگی را در Pixel 8 Pro، Pixel 8 و Samsung Galaxy S24، از جمله Summarize in Recorder و Smart Reply در Gboard، ارائه کرده است.
برنامه Recorder که به کاربران اجازه میدهد دکمهای را برای ضبط و رونویسی صدا فشار دهند، شامل خلاصهای از مکالمات، مصاحبهها، ارائهها و سایر قطعههای ضبطشده شما توسط Gemini است. کاربران حتی اگر سیگنال یا اتصال Wi-Fi در دسترس نداشته باشند، این خلاصهها را دریافت میکنند - و با اشاره به حفظ حریم خصوصی، هیچ دادهای از تلفن آنها خارج نمیشود.
Gemini Nano همچنین در Gboard، برنامه صفحه کلید گوگل وجود دارد. در آنجا، قابلیتی به نام Smart Reply را تقویت میکند که به شما کمک میکند تا چیز بعدی را که میخواهید هنگام مکالمه در یک برنامه پیامرسانی بگویید، بیان کنید. گوگل او میگوید این ویژگی در ابتدا فقط با واتساپ کار میکند، اما به مرور زمان به اپلیکیشنهای بیشتری نیز میرسد.
و در برنامه پیامهای Google در دستگاههای پشتیبانیشده، Nano Magic Compose را فعال میکند، که میتواند پیامهایی را به سبکهایی مانند «هیجانانگیز»، «رسمی» و «غزلی» ایجاد کند.
آیا Gemini بهتر از GPT-4 OpenAI است؟
گوگل چندین بار برتری Gemini در معیارها را تبلیغ کرده است و ادعا کرده است که Gemini Ultra در مورد «30 معیار از 32 معیار آکادمیک پرکاربرد مورد استفاده در تحقیق و توسعه مدل های زبانی بزرگ» از نتایج پیشرفته فعلی فراتر رفته است. این شرکت می گوید که Gemini 1.5 Pro، در عین حال، در برخی از سناریوها نسبت به Gemini Ultra در کارهایی مانند خلاصه کردن محتوا، طوفان فکری و نوشتن توانایی بیشتری دارد. احتمالاً این موضوع با عرضه مدل بعدی Ultra تغییر خواهد کرد.
اما با کنار گذاشتن این سوال که آیا معیارها واقعا مدل بهتری را نشان میدهند، امتیازاتی که گوگل به آن اشاره میکند به نظر میرسد تا حدی بهتر از مدلهای متناظر OpenAI است. و - همانطور که قبلاً ذکر شد - برخی از برداشتهای اولیه عالی نبودهاند، با کاربران و دانشگاهیان اشاره میکنند که نسخه قدیمیتر Gemini Pro تمایل دارد حقایق اساسی را اشتباه بگیرد، با ترجمهها مشکل دارد و پیشنهادهای کدنویسی ضعیفی ارائه میدهد.
جمینی چقدر هزینه دارد؟
Gemini 1.5 Pro برای استفاده در برنامههای Gemini و در حال حاضر، AI Studio و Vertex AI رایگان است.
با این حال، هنگامی که Gemini 1.5 Pro از پیش نمایش در Vertex خارج شد، قیمت این مدل 0.0025 دلار به ازای هر کاراکتر خواهد بود در حالی که هزینه خروجی 0.00005 دلار برای هر کاراکتر خواهد بود. مشتریان Vertex به ازای هر 1000 کاراکتر (حدود 140 تا 250 کلمه) و در مورد مدل هایی مانند Gemini Pro Vision، به ازای هر تصویر (0.0025 دلار) پرداخت می کنند.
بیایید فرض کنیم یک مقاله 500 کلمه ای شامل 2000 کاراکتر است. خلاصه کردن آن مقاله با Gemini 1.5 Pro 5 دلار هزینه دارد. در همین حال، تولید مقاله ای با طول مشابه 0.1 دلار هزینه دارد.
قیمت اولترا هنوز اعلام نشده است.
کجا می توانید Gemini را امتحان کنید؟
جمینی پرو
ساده ترین مکان برای تجربه Gemini Pro در برنامه های Gemini است. Pro و Ultra به پرس و جوها به زبان های مختلفی پاسخ می دهند.
Gemini Pro و Ultra نیز به صورت پیش نمایش در Vertex AI از طریق یک API قابل دسترسی هستند. API فعلاً برای استفاده از "در محدوده" رایگان است و از مناطق خاصی از جمله اروپا و همچنین ویژگی هایی مانند عملکرد چت و فیلتر کردن پشتیبانی می کند.
در جاهای دیگر، Gemini Pro و Ultra را میتوانید در AI Studio پیدا کنید. با استفاده از این سرویس، توسعهدهندگان میتوانند درخواستها و چتباتهای مبتنی بر Gemini را تکرار کنند و سپس کلیدهای API را برای استفاده از آنها در برنامههای خود دریافت کنند - یا کد را به یک IDE با آپشن های کاملتر صادر کنند.
Code Assist (قبلاً Duet AI برای توسعه دهندگان)، مجموعه ابزارهای کمکی مبتنی بر هوش مصنوعی Google برای تکمیل و تولید کد، از مدلهای Gemini استفاده میکند. توسعهدهندگان میتوانند تغییرات «در مقیاس بزرگ» را در پایگاههای کد انجام دهند، بهعنوان مثال، وابستگیهای بین فایلها را بهروزرسانی کنند و تکههای بزرگی از کد را تحلیل کنند.
گوگل مدلهای Gemini را به ابزارهای توسعهدهنده خود برای پلتفرم توسعهدهندگان موبایل Chrome و Firebase و ابزارهای ایجاد و مدیریت پایگاه داده خود آورده است. و محصولات امنیتی جدیدی را با پشتیبانی Gemini راه اندازی کرده است، مانند Gemini in Threat Intelligence، جزء پلتفرم امنیت سایبری Mandiant گوگل که می تواند بخش های زیادی از کدهای بالقوه مخرب را تجزیه و تحلیل کند و به کاربران اجازه دهد تا به زبان طبیعی برای تهدیدهای مداوم یا شاخص های سازش جستجو کنند.
ارسال نظر