گوگل برنامه های خود را برای ارتقای هوش مصنوعی در دنیای واقعی از طریق Gemini Live در Google I/O 2024 فاش کرد.

شناسهٔ خبر: 471586 - تاریخ: مه 14, 2024

گوگل در حال بهبود ربات چت جمینی مبتنی بر هوش مصنوعی است تا بتواند دنیای اطراف خود و افرادی که با آن صحبت می کنند را بهتر درک کند.

در کنفرانس توسعه‌دهندگان Google I/O 2024 در روز سه‌شنبه، این شرکت پیش‌نمایش تجربه جدیدی در Gemini به نام Gemini Live را ارائه کرد که به کاربران امکان می‌دهد در گوشی‌های هوشمند خود با جمینی چت صوتی «عمیق» داشته باشند. کاربران می توانند در حین صحبت کردن ربات چت، جمینی را قطع کنند تا سؤالات واضحی بپرسند، و در زمان واقعی با الگوهای گفتار آنها سازگار می شود. و Gemini می‌تواند محیط اطراف کاربران را ببیند و به آن‌ها پاسخ دهد، چه از طریق عکس‌ها یا ویدیوهایی که توسط دوربین گوشی‌های هوشمندشان گرفته شده است.

سیسی هسیائو، مدیر ارشد تجربیات جمینی در گوگل، طی یک کنفرانس مطبوعاتی گفت: «با Live، جمینی بهتر می‌تواند شما را درک کند». "این به طور سفارشی تنظیم شده است تا شهودی باشد و با مدل [هوش مصنوعی زیربنایی] یک گفتگوی واقعی و پشت سر هم داشته باشد."

Gemini Live از برخی جهات تکامل لنز گوگل، پلت فرم قدیمی بینایی کامپیوتری گوگل برای تجزیه و تحلیل تصاویر و ویدئوها، و دستیار گوگل، دستیار مجازی مبتنی بر هوش مصنوعی گوگل، تولید کننده گفتار و شناسایی در تلفن ها، بلندگوهای هوشمند و تلویزیون ها است.

در نگاه اول، Live به نظر نمی رسد یک ارتقاء شدید نسبت به فناوری موجود باشد. اما گوگل ادعا می‌کند که از تکنیک‌های جدیدتر در زمینه هوش مصنوعی بهره می‌برد تا تجزیه و تحلیل تصویر برتر و کمتر مستعد خطا را ارائه دهد – و این تکنیک‌ها را با موتور گفتاری پیشرفته‌تر برای گفت‌وگوهای چند چرخشی منسجم‌تر، گویاتر و واقعی‌تر ترکیب می‌کند.

Oriol Vinyals، دانشمند اصلی در DeepMind، بخش تحقیقات هوش مصنوعی گوگل، در مصاحبه ای با TechCrunch گفت: «این یک رابط صوتی بلادرنگ است و [دارای] قابلیت های چندوجهی بسیار قدرتمند همراه با زمینه طولانی است. می توانید تصور کنید که این ترکیب چگونه بسیار قدرتمند خواهد بود.

نوآوری‌های فنی که Live را هدایت می‌کنند تا حدی از Project Astra سرچشمه می‌گیرد، یک ابتکار جدید در DeepMind برای ایجاد برنامه‌ها و «عامل‌های» مبتنی بر هوش مصنوعی برای درک هم‌زمان و چندوجهی.

دمیس حسابیس، مدیر اجرایی DeepMind در این جلسه گفت: "ما همیشه می خواستیم یک عامل جهانی بسازیم که در زندگی روزمره مفید باشد." "کارگزارانی را تصور کنید که می توانند کارهای ما را ببینند و بشنوند، زمینه ای را که در آن قرار داریم را بهتر درک کنند و در مکالمه سریع پاسخ دهند و سرعت و کیفیت تعاملات را بسیار طبیعی تر نشان دهند."

Gemini Live - که تا اواخر امسال راه اندازی نمی شود - می تواند به سؤالاتی در مورد چیزهایی که در دید (یا اخیراً در معرض دید) دوربین تلفن هوشمند قرار دارند، پاسخ دهد، مانند محله ای که کاربر ممکن است در کدام محله باشد یا نام بخشی از یک دوچرخه شکسته. با اشاره به بخشی از کد رایانه، Live می تواند توضیح دهد که آن کد چه کار می کند. یا در مورد اینکه یک عینک ممکن است کجا باشد، Live می تواند بگوید آخرین بار در کجا عینک را دیده است.

Live همچنین برای خدمت به عنوان یک مربی مجازی طراحی شده است و به کاربران کمک می کند تا برای رویدادها، ایده های طوفان فکری و غیره تمرین کنند. به عنوان مثال، Live می‌تواند مهارت‌هایی را برای برجسته کردن در یک مصاحبه شغلی یا کارآموزی آینده نشان دهد، یا مشاوره سخنرانی عمومی ارائه دهد.

سیسی او میگوید : «جمینی لایو می‌تواند اطلاعات را مختصرتر ارائه دهد و بیشتر به صورت مکالمه پاسخ دهد تا اینکه مثلاً فقط به صورت متنی در حال تعامل باشید. "ما فکر می کنیم که یک دستیار هوش مصنوعی باید بتواند مشکلات پیچیده را حل کند ... و همچنین هنگام درگیر شدن با آن احساس بسیار طبیعی و روان داشته باشد."

توانایی Gemini Live برای "به خاطر سپردن" با معماری مدلی که زیربنای آن است امکان پذیر شده است: Gemini 1.5 Pro (و تا حدی دیگر مدل های تولیدی "ویژه وظایف")، که پرچمدار فعلی در خانواده Gemini از هوش مصنوعی مولد گوگل است. مدل ها. این یک پنجره متنی طولانی‌تر از حد متوسط دارد، به این معنی که می‌تواند داده‌های زیادی - حدود یک ساعت ویدیو (RIP، باتری گوشی‌های هوشمند) - را قبل از ایجاد پاسخ دریافت و استدلال کند.

وینیالز گفت: «این ساعت‌ها ویدیویی است که می‌توانید با مدل تعامل داشته باشید و تمام اتفاقات قبلی را به خاطر بسپارید.

Live یادآور هوش مصنوعی مولد پشت عینک Ray-Ban Meta است که به طور مشابه می تواند به تصاویر گرفته شده توسط دوربین نگاه کند و آنها را در زمان واقعی تفسیر کند. با قضاوت از قرقره‌های نمایشی از پیش ضبط‌شده‌ای که گوگل در خلال نشست نشان داد، کاملاً شبیه به ChatGPT اخیراً اصلاح‌شده OpenAI است.

یک تفاوت اصلی بین ChatGPT جدید و Gemini Live این است که Gemini Live رایگان نخواهد بود. پس از راه‌اندازی، Live انحصاری برای Gemini Advanced خواهد بود، نسخه پیچیده‌تر Gemini که پشت برنامه Google One AI Premium با قیمت 20 دلار در ماه قرار دارد.

شاید در یکی از دموهای گوگل در متا، فردی را نشان داد که عینک واقعیت گفت ه مجهز به اپلیکیشنی شبیه به Gemini Live دارد. گوگل - بدون شک مایل است که از یک سری دیگر در بخش عینک دوری کند - از بیان اینکه آیا این عینک یا هر عینکی که با هوش مصنوعی مولد آن ساخته شده است در آینده نزدیک به بازار عرضه خواهد شد، خودداری کرد.

بیشتر بخوانید

FCC رسما به بازگرداندن بی طرفی شبکه رای می دهد

اگرچه Vinyals این ایده را کاملاً متوقف ن کرد. او گفت: «ما هنوز در حال نمونه‌سازی هستیم و البته [Astra و Gemini Live] را به دنیا نشان می‌دهیم. ما در حال مشاهده واکنش افرادی هستیم که می‌توانند آن را امتحان کنند، و این موضوع به ما اطلاع می‌دهد که کجا برویم.»

سایر به روز رسانی های Gemini

فراتر از Live، Gemini در حال دریافت طیف وسیعی از ارتقاء برای مفیدتر کردن آن در روز است.

کاربران پیشرفته Gemini در بیش از 150 کشور و بیش از 35 زبان می توانند از زمینه بزرگتر Gemini 1.5 Pro برای تجزیه و تحلیل، خلاصه کردن و پاسخ به سؤالات مربوط به اسناد طولانی (حداکثر 1500 صفحه) از ربات چت استفاده کنند. (در حالی که Live اواخر سال عرضه می شود، کاربران Gemini Advanced می توانند از امروز با Gemini 1.5 Pro تعامل داشته باشند.) اکنون اسناد را می توان از Google Drive وارد کرد یا مستقیماً از یک دستگاه تلفن همراه بارگذاری کرد.

اواخر امسال برای کاربران Gemini Advanced، پنجره زمینه حتی بزرگتر خواهد شد - به 2 میلیون توکن - و پشتیبانی از آپلود ویدیوها (تا دو ساعت به طول) در Gemini و تجزیه و تحلیل پایگاه های کد بزرگ (بیش از 30000 خط) را به همراه خواهد داشت. از کد).

گوگل ادعا می کند که پنجره زمینه بزرگ درک تصویر Gemini را بهبود می بخشد. به عنوان مثال، با توجه به عکسی از یک غذای ماهی، Gemini قادر خواهد بود دستور پخت مشابهی را پیشنهاد دهد. یا با توجه به یک مسئله ریاضی، Gemini دستورالعمل های گام به گام در مورد نحوه حل آن را ارائه می دهد.

و به جمینی کمک می‌کند تا برنامه سفر داشته باشد.

در ماه‌های آینده، Gemini Advanced یک «تجربه برنامه‌ریزی» جدید به دست خواهد آورد که برنامه‌های سفر سفارشی را از طریق درخواست‌ها ایجاد می‌کند. با در نظر گرفتن مواردی مانند زمان پرواز (از ایمیل‌های موجود در صندوق ورودی Gmail کاربر)، اولویت‌های غذا و اطلاعات مربوط به جاذبه‌های محلی (از داده‌های جستجوی Google و نقشه‌ها)، و همچنین فواصل بین آن جاذبه‌ها، Gemini یک برنامه سفر ایجاد می‌کند که به‌طور خودکار به‌روزرسانی می‌شود. برای انعکاس هرگونه تغییر

در آینده نزدیک تر، کاربران پیشرفته Gemini می توانند Gems، چت ربات های سفارشی با مدل های Gemini گوگل را ایجاد کنند. در امتداد خطوط GPTهای OpenAI، جم ها را می توان از توضیحات زبان طبیعی تولید کرد - برای مثال، «تو مربی دویدن من هستی. یک برنامه دویدن روزانه به من بدهید» - و با دیگران به اشتراک گذاشته شده یا خصوصی نگه داشته می شود. هیچ اطلاعاتی در مورد اینکه آیا گوگل قصد دارد ویترینی برای سنگهای قیمتی مانند فروشگاه GPT OpenAI راه اندازی کند یا خیر، وجود ندارد. امیدوارم با ادامه I/O بیشتر بیاموزیم.

به‌زودی، Gems و Gemini می‌توانند از مجموعه گسترده‌ای از ادغام‌ها با سرویس‌های Google، از جمله Google Calendar، Tasks، Keep و YouTube Music استفاده کنند تا کارهای مختلف صرفه‌جویی در کار را انجام دهند.

هسیائو گفت: «فرض کنید که شما یک پرواز از مدرسه فرزندتان دارید، و همه این رویدادها وجود دارد که می خواهید به تقویم شخصی خود اضافه کنید. شما می‌توانید از این بروشور عکس بگیرید و از برنامه Gemini بخواهید که این ورودی‌های تقویم را مستقیماً در تقویم شما ایجاد کند. این یک صرفه جویی عالی در زمان خواهد بود.»

با توجه به تمایل هوش مصنوعی مولد به اشتباه گرفتن خلاصه ها و به طور کلی خارج شدن از ریل (به علاوه تحلیل های اولیه نه چندان درخشان Gemini)، ادعاهای گوگل را با ذره ای از نمک در نظر بگیرید. اما اگر Gemini و Gemini Advanced بهبودیافته همان طور که Hsiao توصیف می کند عمل کنند - و این اگر بزرگ است - می توانند واقعاً صرفه جویی در زمان خوبی داشته باشند.

دیگر اخبار

نحوه تعمیر کد خطای Roblox 262

ما در حال راه اندازی یک خبرنامه هوش مصنوعی هستیم! برای شروع دریافت آن در صندوق ورودی خود از 5 ژوئن اینجا ثبت نام کنید.

درباره Google I/O 2024 در TechCrunch بیشتر بخوانید

خبرکاو

اخبار مرتبط :

صنایع خلاق بریتانیا کمپین «آن را منصفانه» علیه سرقت محتوای هوش مصنوعی راه اندازی کردند

رایانه ای با 8 (بله، 8) پردازنده گرافیکی AMD Radeon RX 7900 XTX می خواهید؟ اینجا یکی و OMG است، حتی می‌توانید پردازنده‌های گرافیکی Intel Arc را اضافه کنید

آخرین عناوین :

متن خبر

گوگل برنامه های خود را برای ارتقای هوش مصنوعی در دنیای واقعی از طریق Gemini Live در Google I/O 2024 فاش کرد.

سایر به روز رسانی های Gemini

اخبار مرتبط :

صنایع خلاق بریتانیا کمپین «آن را منصفانه» علیه سرقت محتوای هوش مصنوعی راه اندازی کردند

صنایع خلاق بریتانیا کمپین «آن را منصفانه» علیه سرقت محتوای هوش مصنوعی راه اندازی کردند

صنایع خلاق بریتانیا کمپین «آن را منصفانه» علیه سرقت محتوای هوش مصنوعی راه اندازی کردند

رایانه ای با 8 (بله، 8) پردازنده گرافیکی AMD Radeon RX 7900 XTX می خواهید؟ اینجا یکی و OMG است، حتی می‌توانید پردازنده‌های گرافیکی Intel Arc را اضافه کنید

چگونه تفکر “بسط یافته” جدید کلود 3.7 با استدلال ChatGPT o1 مقایسه می شود

ارسال نظر

آموزش طراحی سایت

فروش تم های وردپرس با قیمت بسیار مناسب

هاستینگ و ثبت دامنه

تمامی حقوق مادی و معنوی این سایت متعلق به خبرکاو است و استفاده از مطالب با ذکر منبع بلامانع است