گوگل برنامه های خود را برای ارتقای هوش مصنوعی در دنیای واقعی از طریق Gemini Live در Google I/O 2024 فاش کرد.

گوگل در حال بهبود ربات چت جمینی مبتنی بر هوش مصنوعی است تا بتواند دنیای اطراف خود و افرادی که با آن صحبت می کنند را بهتر درک کند.
در کنفرانس توسعهدهندگان Google I/O 2024 در روز سهشنبه، این شرکت پیشنمایش تجربه جدیدی در Gemini به نام Gemini Live را ارائه کرد که به کاربران امکان میدهد در گوشیهای هوشمند خود با جمینی چت صوتی «عمیق» داشته باشند. کاربران می توانند در حین صحبت کردن ربات چت، جمینی را قطع کنند تا سؤالات واضحی بپرسند، و در زمان واقعی با الگوهای گفتار آنها سازگار می شود. و Gemini میتواند محیط اطراف کاربران را ببیند و به آنها پاسخ دهد، چه از طریق عکسها یا ویدیوهایی که توسط دوربین گوشیهای هوشمندشان گرفته شده است.
سیسی هسیائو، مدیر ارشد تجربیات جمینی در گوگل، طی یک کنفرانس مطبوعاتی گفت: «با Live، جمینی بهتر میتواند شما را درک کند». "این به طور سفارشی تنظیم شده است تا شهودی باشد و با مدل [هوش مصنوعی زیربنایی] یک گفتگوی واقعی و پشت سر هم داشته باشد."
Gemini Live از برخی جهات تکامل لنز گوگل، پلت فرم قدیمی بینایی کامپیوتری گوگل برای تجزیه و تحلیل تصاویر و ویدئوها، و دستیار گوگل، دستیار مجازی مبتنی بر هوش مصنوعی گوگل، تولید کننده گفتار و شناسایی در تلفن ها، بلندگوهای هوشمند و تلویزیون ها است.
در نگاه اول، Live به نظر نمی رسد یک ارتقاء شدید نسبت به فناوری موجود باشد. اما گوگل ادعا میکند که از تکنیکهای جدیدتر در زمینه هوش مصنوعی بهره میبرد تا تجزیه و تحلیل تصویر برتر و کمتر مستعد خطا را ارائه دهد – و این تکنیکها را با موتور گفتاری پیشرفتهتر برای گفتوگوهای چند چرخشی منسجمتر، گویاتر و واقعیتر ترکیب میکند.

Oriol Vinyals، دانشمند اصلی در DeepMind، بخش تحقیقات هوش مصنوعی گوگل، در مصاحبه ای با TechCrunch گفت: «این یک رابط صوتی بلادرنگ است و [دارای] قابلیت های چندوجهی بسیار قدرتمند همراه با زمینه طولانی است. می توانید تصور کنید که این ترکیب چگونه بسیار قدرتمند خواهد بود.
نوآوریهای فنی که Live را هدایت میکنند تا حدی از Project Astra سرچشمه میگیرد، یک ابتکار جدید در DeepMind برای ایجاد برنامهها و «عاملهای» مبتنی بر هوش مصنوعی برای درک همزمان و چندوجهی.
دمیس حسابیس، مدیر اجرایی DeepMind در این جلسه گفت: "ما همیشه می خواستیم یک عامل جهانی بسازیم که در زندگی روزمره مفید باشد." "کارگزارانی را تصور کنید که می توانند کارهای ما را ببینند و بشنوند، زمینه ای را که در آن قرار داریم را بهتر درک کنند و در مکالمه سریع پاسخ دهند و سرعت و کیفیت تعاملات را بسیار طبیعی تر نشان دهند."
Gemini Live - که تا اواخر امسال راه اندازی نمی شود - می تواند به سؤالاتی در مورد چیزهایی که در دید (یا اخیراً در معرض دید) دوربین تلفن هوشمند قرار دارند، پاسخ دهد، مانند محله ای که کاربر ممکن است در کدام محله باشد یا نام بخشی از یک دوچرخه شکسته. با اشاره به بخشی از کد رایانه، Live می تواند توضیح دهد که آن کد چه کار می کند. یا در مورد اینکه یک عینک ممکن است کجا باشد، Live می تواند بگوید آخرین بار در کجا عینک را دیده است.

Live همچنین برای خدمت به عنوان یک مربی مجازی طراحی شده است و به کاربران کمک می کند تا برای رویدادها، ایده های طوفان فکری و غیره تمرین کنند. به عنوان مثال، Live میتواند مهارتهایی را برای برجسته کردن در یک مصاحبه شغلی یا کارآموزی آینده نشان دهد، یا مشاوره سخنرانی عمومی ارائه دهد.
سیسی او میگوید : «جمینی لایو میتواند اطلاعات را مختصرتر ارائه دهد و بیشتر به صورت مکالمه پاسخ دهد تا اینکه مثلاً فقط به صورت متنی در حال تعامل باشید. "ما فکر می کنیم که یک دستیار هوش مصنوعی باید بتواند مشکلات پیچیده را حل کند ... و همچنین هنگام درگیر شدن با آن احساس بسیار طبیعی و روان داشته باشد."
توانایی Gemini Live برای "به خاطر سپردن" با معماری مدلی که زیربنای آن است امکان پذیر شده است: Gemini 1.5 Pro (و تا حدی دیگر مدل های تولیدی "ویژه وظایف")، که پرچمدار فعلی در خانواده Gemini از هوش مصنوعی مولد گوگل است. مدل ها. این یک پنجره متنی طولانیتر از حد متوسط دارد، به این معنی که میتواند دادههای زیادی - حدود یک ساعت ویدیو (RIP، باتری گوشیهای هوشمند) - را قبل از ایجاد پاسخ دریافت و استدلال کند.
وینیالز گفت: «این ساعتها ویدیویی است که میتوانید با مدل تعامل داشته باشید و تمام اتفاقات قبلی را به خاطر بسپارید.
Live یادآور هوش مصنوعی مولد پشت عینک Ray-Ban Meta است که به طور مشابه می تواند به تصاویر گرفته شده توسط دوربین نگاه کند و آنها را در زمان واقعی تفسیر کند. با قضاوت از قرقرههای نمایشی از پیش ضبطشدهای که گوگل در خلال نشست نشان داد، کاملاً شبیه به ChatGPT اخیراً اصلاحشده OpenAI است.
یک تفاوت اصلی بین ChatGPT جدید و Gemini Live این است که Gemini Live رایگان نخواهد بود. پس از راهاندازی، Live انحصاری برای Gemini Advanced خواهد بود، نسخه پیچیدهتر Gemini که پشت برنامه Google One AI Premium با قیمت 20 دلار در ماه قرار دارد.
شاید در یکی از دموهای گوگل در متا، فردی را نشان داد که عینک واقعیت گفت ه مجهز به اپلیکیشنی شبیه به Gemini Live دارد. گوگل - بدون شک مایل است که از یک سری دیگر در بخش عینک دوری کند - از بیان اینکه آیا این عینک یا هر عینکی که با هوش مصنوعی مولد آن ساخته شده است در آینده نزدیک به بازار عرضه خواهد شد، خودداری کرد.
اگرچه Vinyals این ایده را کاملاً متوقف ن کرد. او گفت: «ما هنوز در حال نمونهسازی هستیم و البته [Astra و Gemini Live] را به دنیا نشان میدهیم. ما در حال مشاهده واکنش افرادی هستیم که میتوانند آن را امتحان کنند، و این موضوع به ما اطلاع میدهد که کجا برویم.»
سایر به روز رسانی های Gemini
فراتر از Live، Gemini در حال دریافت طیف وسیعی از ارتقاء برای مفیدتر کردن آن در روز است.
کاربران پیشرفته Gemini در بیش از 150 کشور و بیش از 35 زبان می توانند از زمینه بزرگتر Gemini 1.5 Pro برای تجزیه و تحلیل، خلاصه کردن و پاسخ به سؤالات مربوط به اسناد طولانی (حداکثر 1500 صفحه) از ربات چت استفاده کنند. (در حالی که Live اواخر سال عرضه می شود، کاربران Gemini Advanced می توانند از امروز با Gemini 1.5 Pro تعامل داشته باشند.) اکنون اسناد را می توان از Google Drive وارد کرد یا مستقیماً از یک دستگاه تلفن همراه بارگذاری کرد.
اواخر امسال برای کاربران Gemini Advanced، پنجره زمینه حتی بزرگتر خواهد شد - به 2 میلیون توکن - و پشتیبانی از آپلود ویدیوها (تا دو ساعت به طول) در Gemini و تجزیه و تحلیل پایگاه های کد بزرگ (بیش از 30000 خط) را به همراه خواهد داشت. از کد).
گوگل ادعا می کند که پنجره زمینه بزرگ درک تصویر Gemini را بهبود می بخشد. به عنوان مثال، با توجه به عکسی از یک غذای ماهی، Gemini قادر خواهد بود دستور پخت مشابهی را پیشنهاد دهد. یا با توجه به یک مسئله ریاضی، Gemini دستورالعمل های گام به گام در مورد نحوه حل آن را ارائه می دهد.
و به جمینی کمک میکند تا برنامه سفر داشته باشد.

در ماههای آینده، Gemini Advanced یک «تجربه برنامهریزی» جدید به دست خواهد آورد که برنامههای سفر سفارشی را از طریق درخواستها ایجاد میکند. با در نظر گرفتن مواردی مانند زمان پرواز (از ایمیلهای موجود در صندوق ورودی Gmail کاربر)، اولویتهای غذا و اطلاعات مربوط به جاذبههای محلی (از دادههای جستجوی Google و نقشهها)، و همچنین فواصل بین آن جاذبهها، Gemini یک برنامه سفر ایجاد میکند که بهطور خودکار بهروزرسانی میشود. برای انعکاس هرگونه تغییر
در آینده نزدیک تر، کاربران پیشرفته Gemini می توانند Gems، چت ربات های سفارشی با مدل های Gemini گوگل را ایجاد کنند. در امتداد خطوط GPTهای OpenAI، جم ها را می توان از توضیحات زبان طبیعی تولید کرد - برای مثال، «تو مربی دویدن من هستی. یک برنامه دویدن روزانه به من بدهید» - و با دیگران به اشتراک گذاشته شده یا خصوصی نگه داشته می شود. هیچ اطلاعاتی در مورد اینکه آیا گوگل قصد دارد ویترینی برای سنگهای قیمتی مانند فروشگاه GPT OpenAI راه اندازی کند یا خیر، وجود ندارد. امیدوارم با ادامه I/O بیشتر بیاموزیم.
بهزودی، Gems و Gemini میتوانند از مجموعه گستردهای از ادغامها با سرویسهای Google، از جمله Google Calendar، Tasks، Keep و YouTube Music استفاده کنند تا کارهای مختلف صرفهجویی در کار را انجام دهند.

هسیائو گفت: «فرض کنید که شما یک پرواز از مدرسه فرزندتان دارید، و همه این رویدادها وجود دارد که می خواهید به تقویم شخصی خود اضافه کنید. شما میتوانید از این بروشور عکس بگیرید و از برنامه Gemini بخواهید که این ورودیهای تقویم را مستقیماً در تقویم شما ایجاد کند. این یک صرفه جویی عالی در زمان خواهد بود.»
با توجه به تمایل هوش مصنوعی مولد به اشتباه گرفتن خلاصه ها و به طور کلی خارج شدن از ریل (به علاوه تحلیل های اولیه نه چندان درخشان Gemini)، ادعاهای گوگل را با ذره ای از نمک در نظر بگیرید. اما اگر Gemini و Gemini Advanced بهبودیافته همان طور که Hsiao توصیف می کند عمل کنند - و این اگر بزرگ است - می توانند واقعاً صرفه جویی در زمان خوبی داشته باشند.
ما در حال راه اندازی یک خبرنامه هوش مصنوعی هستیم! برای شروع دریافت آن در صندوق ورودی خود از 5 ژوئن اینجا ثبت نام کنید.

ارسال نظر