هوش مصنوعی مولد گوگل اکنون می تواند ساعت ها ویدئو را تجزیه و تحلیل کند
جمینی، خانواده مدلهای مولد هوش مصنوعی گوگل، اکنون میتواند اسناد، پایگاههای کد، ویدیوها و ضبطهای صوتی طولانیتر را نسبت به قبل تجزیه و تحلیل کند.
در طی یک سخنرانی اصلی در کنفرانس توسعه دهندگان Google I/O 2024، گوگل پیش نمایش خصوصی نسخه جدیدی از Gemini 1.5 Pro، مدل پرچمدار فعلی این شرکت را اعلام کرد که می تواند تا 2 میلیون توکن را جذب کند. این دو برابر حداکثر مقدار قبلی است.
نسخه جدید Gemini 1.5 Pro با 2 میلیون توکن، از بزرگترین ورودی در میان هر مدل تجاری موجود پشتیبانی می کند. بزرگترین بعدی، Anthropic's Claude 3، با 1 میلیون توکن بالاتر است.
در زمینه هوش مصنوعی، "توکن ها" به بیت های تقسیم شده داده های خام، مانند هجاهای "fan"، "tas" و "tic" در کلمه "fantastic" اشاره دارد. دو میلیون توکن معادل حدود 1.4 میلیون کلمه، دو ساعت ویدیو یا 22 ساعت صدا است.
فراتر از توانایی تجزیه و تحلیل فایلهای بزرگ، مدلهایی که میتوانند توکنهای بیشتری دریافت کنند، گاهی اوقات میتوانند عملکرد بهتری داشته باشند.
برخلاف مدلهایی با حداکثر ورودی نشانه کوچک (که در غیر این صورت به عنوان متن شناخته میشود)، مدلهایی مانند Gemini 1.5 Pro با ورودی 2 میلیون توکن به راحتی محتوای مکالمات اخیر را فراموش نمیکنند و از موضوع منحرف نمیشوند. مدلهای زمینه بزرگ همچنین میتوانند جریان دادههایی را که دریافت میکنند بهتر درک کنند - حداقل به صورت فرضی - و پاسخهای غنیتری از نظر محتوایی ایجاد کنند.
توسعه دهندگانی که علاقه مند به آزمایش Gemini 1.5 Pro با زمینه 2 میلیون توکن هستند، می توانند نام خود را به فهرست انتظار Google AI Studio، ابزار توسعه دهنده هوش مصنوعی گوگل اضافه کنند. (Gemini 1.5 Pro با زمینه 1 میلیون توکن در ماه آینده در دسترس عمومی در سراسر سرویسها و سطوح توسعهدهنده Google عرضه میشود.)
فراتر از پنجره زمینه بزرگتر، گوگل می گوید که Gemini 1.5 Pro در چند ماه گذشته از طریق بهبودهای الگوریتمی "بهبود" یافته است. گوگل می گوید که در تولید کد، استدلال منطقی و برنامه ریزی، مکالمه چند نوبتی، و درک صدا و تصویر بهتر است. و در Gemini API و AI Studio، 1.5 Pro اکنون میتواند علاوه بر تصاویر و ویدیو، صدا را نیز تحلیل کند - و از طریق قابلیتی به نام دستورالعملهای سیستم هدایت شود.
Gemini 1.5 Flash، یک مدل سریعتر
برای برنامههای کاربردی کمتر، گوگل بهصورت پیشنمایش عمومی Gemini 1.5 Flash را راهاندازی کرد، نسخهای «مقطر» از Gemini 1.5 Pro که مدلی کوچک و کارآمد است که برای بارهای کاری مولد هوش مصنوعی «با فرکانس بالا» ساخته شده است. فلش - که دارای یک پنجره زمینه 2 میلیون توکن است - مانند Gemini 1.5 Pro چند وجهی است، به این معنی که می تواند صدا، ویدئو و تصاویر و همچنین متن را تجزیه و تحلیل کند (اما فقط متن تولید می کند).
جاش وودوارد، معاون آزمایشگاه گوگل، یکی از بخشهای آزمایشی هوش مصنوعی گوگل، در طی نشستی با خبرنگاران گفت: «جمینی پرو برای کارهای استدلالی بسیار کلیتر یا پیچیدهتر و اغلب چند مرحلهای است. "[اما] به عنوان یک توسعه دهنده، اگر به سرعت خروجی مدل اهمیت زیادی می دهید، واقعاً می خواهید از [Flash] استفاده کنید."
وودوارد اضافه کرد که فلش مخصوصاً برای کارهایی مانند خلاصهسازی، برنامههای چت، شرح تصاویر و ویدیوها و استخراج دادهها از اسناد و جداول طولانی بسیار مناسب است.
به نظر میرسد فلش پاسخ گوگل به مدلهای کوچک و کمهزینهای باشد که از طریق APIهایی مانند کلود ۳ هایکو Anthropic ارائه میشوند. این گوشی همراه با Gemini 1.5 Pro به طور گسترده در دسترس است و اکنون در بیش از 200 کشور و منطقه از جمله منطقه اقتصادی اروپا، بریتانیا و سوئیس در دسترس است. (اما نسخه زمینه 2 میلیون توکنی در پشت فهرست انتظار قرار دارد.)
در به روز رسانی دیگری با هدف توسعه دهندگان مقرون به صرفه، همه مدل های Gemini، نه فقط فلش، به زودی می توانند از قابلیتی به نام ذخیره سازی متن استفاده کنند. این به توسعه دهندگان اجازه می دهد حجم زیادی از اطلاعات (مثلاً یک پایگاه دانش یا پایگاه داده مقالات تحقیقاتی) را در حافظه پنهان ذخیره کنند که مدل های Gemini می توانند به سرعت و نسبتاً ارزان (از نقطه نظر استفاده) به آن دسترسی داشته باشند.
Batch API رایگان که امروز در پیشنمایش عمومی در Vertex AI، پلتفرم توسعه هوش مصنوعی مبتنی بر سازمانی گوگل در دسترس است، راه مقرونبهصرفهتری را برای مدیریت بارهای کاری مانند طبقهبندی و تجزیه و تحلیل احساسات، استخراج دادهها و تولید توضیحات ارائه میدهد و به درخواستهای متعدد اجازه میدهد تا در یک درخواست به مدل های جمینی ارسال شود.
وودوارد پیشنهاد میکند یکی دیگر از آپشن های جدید دیگری که در اواخر ماه در پیشنمایش Vertex ارائه میشود، تولید کنترلشده، میتواند منجر به صرفهجویی بیشتر در هزینه شود و به کاربران اجازه میدهد خروجیهای مدل Gemini را بر اساس فرمتها یا طرحوارههای خاص (مانند JSON یا XML) تعریف کنند.
وودوارد گفت: "شما می توانید همه فایل های خود را یک بار به مدل ارسال کنید و مجبور نباشید آنها را بارها و بارها ارسال کنید." "این باید زمینه طولانی را [به ویژه] مفیدتر کند - و همچنین مقرون به صرفه تر."
ارسال نظر