متن خبر

هوش مصنوعی مولد گوگل اکنون می تواند ساعت ها ویدئو را تجزیه و تحلیل کند

هوش مصنوعی مولد گوگل اکنون می تواند ساعت ها ویدئو را تجزیه و تحلیل کند

شناسهٔ خبر: 471592 -




جمینی، خانواده مدل‌های مولد هوش مصنوعی گوگل، اکنون می‌تواند اسناد، پایگاه‌های کد، ویدیوها و ضبط‌های صوتی طولانی‌تر را نسبت به قبل تجزیه و تحلیل کند.

در طی یک سخنرانی اصلی در کنفرانس توسعه دهندگان Google I/O 2024، گوگل پیش نمایش خصوصی نسخه جدیدی از Gemini 1.5 Pro، مدل پرچمدار فعلی این شرکت را اعلام کرد که می تواند تا 2 میلیون توکن را جذب کند. این دو برابر حداکثر مقدار قبلی است.

نسخه جدید Gemini 1.5 Pro با 2 میلیون توکن، از بزرگترین ورودی در میان هر مدل تجاری موجود پشتیبانی می کند. بزرگ‌ترین بعدی، Anthropic's Claude 3، با 1 میلیون توکن بالاتر است.

در زمینه هوش مصنوعی، "توکن ها" به بیت های تقسیم شده داده های خام، مانند هجاهای "fan"، "tas" و "tic" در کلمه "fantastic" اشاره دارد. دو میلیون توکن معادل حدود 1.4 میلیون کلمه، دو ساعت ویدیو یا 22 ساعت صدا است.

فراتر از توانایی تجزیه و تحلیل فایل‌های بزرگ، مدل‌هایی که می‌توانند توکن‌های بیشتری دریافت کنند، گاهی اوقات می‌توانند عملکرد بهتری داشته باشند.

برخلاف مدل‌هایی با حداکثر ورودی نشانه کوچک (که در غیر این صورت به عنوان متن شناخته می‌شود)، مدل‌هایی مانند Gemini 1.5 Pro با ورودی 2 میلیون توکن به راحتی محتوای مکالمات اخیر را فراموش نمی‌کنند و از موضوع منحرف نمی‌شوند. مدل‌های زمینه بزرگ همچنین می‌توانند جریان داده‌هایی را که دریافت می‌کنند بهتر درک کنند - حداقل به صورت فرضی - و پاسخ‌های غنی‌تری از نظر محتوایی ایجاد کنند.

توسعه دهندگانی که علاقه مند به آزمایش Gemini 1.5 Pro با زمینه 2 میلیون توکن هستند، می توانند نام خود را به فهرست انتظار Google AI Studio، ابزار توسعه دهنده هوش مصنوعی گوگل اضافه کنند. (Gemini 1.5 Pro با زمینه 1 میلیون توکن در ماه آینده در دسترس عمومی در سراسر سرویس‌ها و سطوح توسعه‌دهنده Google عرضه می‌شود.)

فراتر از پنجره زمینه بزرگتر، گوگل می گوید که Gemini 1.5 Pro در چند ماه گذشته از طریق بهبودهای الگوریتمی "بهبود" یافته است. گوگل می گوید که در تولید کد، استدلال منطقی و برنامه ریزی، مکالمه چند نوبتی، و درک صدا و تصویر بهتر است. و در Gemini API و AI Studio، 1.5 Pro اکنون می‌تواند علاوه بر تصاویر و ویدیو، صدا را نیز تحلیل کند - و از طریق قابلیتی به نام دستورالعمل‌های سیستم هدایت شود.

Gemini 1.5 Flash، یک مدل سریعتر

برای برنامه‌های کاربردی کم‌تر، گوگل به‌صورت پیش‌نمایش عمومی Gemini 1.5 Flash را راه‌اندازی کرد، نسخه‌ای «مقطر» از Gemini 1.5 Pro که مدلی کوچک و کارآمد است که برای بارهای کاری مولد هوش مصنوعی «با فرکانس بالا» ساخته شده است. فلش - که دارای یک پنجره زمینه 2 میلیون توکن است - مانند Gemini 1.5 Pro چند وجهی است، به این معنی که می تواند صدا، ویدئو و تصاویر و همچنین متن را تجزیه و تحلیل کند (اما فقط متن تولید می کند).

جاش وودوارد، معاون آزمایشگاه گوگل، یکی از بخش‌های آزمایشی هوش مصنوعی گوگل، در طی نشستی با خبرنگاران گفت: «جمینی پرو برای کارهای استدلالی بسیار کلی‌تر یا پیچیده‌تر و اغلب چند مرحله‌ای است. "[اما] به عنوان یک توسعه دهنده، اگر به سرعت خروجی مدل اهمیت زیادی می دهید، واقعاً می خواهید از [Flash] استفاده کنید."

وودوارد اضافه کرد که فلش مخصوصاً برای کارهایی مانند خلاصه‌سازی، برنامه‌های چت، شرح تصاویر و ویدیوها و استخراج داده‌ها از اسناد و جداول طولانی بسیار مناسب است.

به نظر می‌رسد فلش پاسخ گوگل به مدل‌های کوچک و کم‌هزینه‌ای باشد که از طریق APIهایی مانند کلود ۳ هایکو Anthropic ارائه می‌شوند. این گوشی همراه با Gemini 1.5 Pro به طور گسترده در دسترس است و اکنون در بیش از 200 کشور و منطقه از جمله منطقه اقتصادی اروپا، بریتانیا و سوئیس در دسترس است. (اما نسخه زمینه 2 میلیون توکنی در پشت فهرست انتظار قرار دارد.)

معرفی Gemini 1.5 Flash ⚡

این یک مدل سبک‌تر است که برای کارهایی بهینه شده است که تأخیر کم و هزینه آن بیشترین اهمیت را دارد. از امروز، توسعه‌دهندگان می‌توانند از آن با حداکثر ۱ میلیون توکن در Google AI Studio و Vertex AI استفاده کنند. #GoogleIO pic.twitter.com/I1adecF9UT

— Google (@Google) 14 مه 2024

در به روز رسانی دیگری با هدف توسعه دهندگان مقرون به صرفه، همه مدل های Gemini، نه فقط فلش، به زودی می توانند از قابلیتی به نام ذخیره سازی متن استفاده کنند. این به توسعه دهندگان اجازه می دهد حجم زیادی از اطلاعات (مثلاً یک پایگاه دانش یا پایگاه داده مقالات تحقیقاتی) را در حافظه پنهان ذخیره کنند که مدل های Gemini می توانند به سرعت و نسبتاً ارزان (از نقطه نظر استفاده) به آن دسترسی داشته باشند.

Batch API رایگان که امروز در پیش‌نمایش عمومی در Vertex AI، پلتفرم توسعه هوش مصنوعی مبتنی بر سازمانی گوگل در دسترس است، راه مقرون‌به‌صرفه‌تری را برای مدیریت بارهای کاری مانند طبقه‌بندی و تجزیه و تحلیل احساسات، استخراج داده‌ها و تولید توضیحات ارائه می‌دهد و به درخواست‌های متعدد اجازه می‌دهد تا در یک درخواست به مدل های جمینی ارسال شود.

وودوارد پیشنهاد می‌کند یکی دیگر از آپشن های جدید دیگری که در اواخر ماه در پیش‌نمایش Vertex ارائه می‌شود، تولید کنترل‌شده، می‌تواند منجر به صرفه‌جویی بیشتر در هزینه شود و به کاربران اجازه می‌دهد خروجی‌های مدل Gemini را بر اساس فرمت‌ها یا طرح‌واره‌های خاص (مانند JSON یا XML) تعریف کنند.

وودوارد گفت: "شما می توانید همه فایل های خود را یک بار به مدل ارسال کنید و مجبور نباشید آنها را بارها و بارها ارسال کنید." "این باید زمینه طولانی را [به ویژه] مفیدتر کند - و همچنین مقرون به صرفه تر."

درباره Google I/O 2024 در TechCrunch بیشتر بخوانید

خبرکاو

ارسال نظر




تبليغات ايهنا تبليغات ايهنا

تمامی حقوق مادی و معنوی این سایت متعلق به خبرکاو است و استفاده از مطالب با ذکر منبع بلامانع است