متن خبر

برترین اعلامیه های هوش مصنوعی از Google I/O

برترین اعلامیه های هوش مصنوعی از Google I/O

شناسهٔ خبر: 471858 -




گوگل روی هوش مصنوعی همه کاره می‌شود – و می‌خواهد شما آن را بدانید. در طول سخنرانی اصلی این شرکت در کنفرانس توسعه دهندگان I/O خود در روز سه شنبه، گوگل بیش از 120 بار از "AI" نام برد. آن خیلی زیاد است!

اما همه اعلامیه های هوش مصنوعی گوگل به خودی خود قابل توجه نبودند. برخی افزایشی بودند. سایرین مجدداً تکرار شدند. پس برای کمک به تفکیک گندم از کاه، برترین محصولات و آپشن های جدید هوش مصنوعی را که در Google I/O 2024 رونمایی شده بود، گردآوری کردیم.

گوگل قصد دارد از هوش مصنوعی برای سازماندهی کل صفحات نتایج جستجوی گوگل استفاده کند.

صفحات سازماندهی شده با هوش مصنوعی چگونه خواهند بود؟ خوب، بستگی به جستجوی جستجو دارد. گوگل گفت، اما ممکن است خلاصه‌ای از بررسی‌ها، بحث‌ها از سایت‌های رسانه‌های اجتماعی مانند Reddit و فهرست‌های پیشنهادات ایجاد شده توسط هوش مصنوعی را نشان دهند.

در حال حاضر، گوگل قصد دارد صفحات نتایج تقویت شده با هوش مصنوعی را هنگامی که تشخیص دهد کاربر به دنبال الهام گرفتن است - به عنوان مثال، زمانی که در حال برنامه ریزی سفر است، نشان دهد. به‌زودی، هنگامی که کاربران گزینه‌های غذاخوری و دستور العمل‌ها را جستجو می‌کنند، این نتایج را نشان می‌دهد و نتایجی برای فیلم‌ها، کتاب‌ها، هتل‌ها، تجارت الکترونیک و موارد دیگر در آینده خواهد داشت.

پروژه Astra و Gemini Live

جوزا
اعتبار تصویر: Google / Google

گوگل در حال بهبود ربات چت جمینی مبتنی بر هوش مصنوعی است تا بتواند دنیای اطراف خود را بهتر درک کند.

این شرکت پیش‌نمایش تجربه جدیدی را در Gemini به نام Gemini Live ارائه کرد که به کاربران امکان می‌دهد در گوشی‌های هوشمند خود با جمینی چت صوتی «عمیق» داشته باشند. کاربران می توانند در حین صحبت کردن ربات چت، جمینی را قطع کنند تا سؤالات واضحی بپرسند، و در زمان واقعی با الگوهای گفتار آنها سازگار می شود. و Gemini می‌تواند محیط اطراف کاربران را ببیند و به آن‌ها پاسخ دهد، چه از طریق عکس‌ها یا ویدیوهایی که توسط دوربین گوشی‌های هوشمندشان گرفته شده است.

Gemini Live - که تا اواخر امسال راه اندازی نمی شود - می تواند به سؤالاتی در مورد چیزهایی که در دید (یا اخیراً در معرض دید) دوربین تلفن هوشمند قرار دارند، پاسخ دهد، مانند محله ای که کاربر ممکن است در کدام محله باشد یا نام بخشی از یک دوچرخه شکسته. نوآوری‌های فنی که Live را هدایت می‌کنند تا حدی از Project Astra سرچشمه می‌گیرد، یک ابتکار جدید در DeepMind برای ایجاد برنامه‌ها و «عامل‌های» مبتنی بر هوش مصنوعی برای درک هم‌زمان و چندوجهی.

Google Veo

Veo
اعتبار تصویر: گوگل

تلاش گوگل برای OpenAI's Sora با Veo، یک مدل هوش مصنوعی که می‌تواند کلیپ‌های ویدیویی 1080p در حدود یک دقیقه با یک پیام متنی ایجاد کند.

Veo می‌تواند سبک‌های مختلف بصری و سینمایی، از جمله عکس‌هایی از مناظر و تایم لپس را به تصویر بکشد، و ویرایش‌ها و تنظیماتی را روی فیلم‌هایی که از قبل ایجاد شده است انجام دهد. این مدل حرکات دوربین و VFX را به خوبی از اعلان‌ها درک می‌کند (به توصیف‌هایی مانند "پن"، "زوم" و "انفجار" فکر کنید). و Veo تا حدودی درک درستی از فیزیک دارد - چیزهایی مانند دینامیک سیالات و گرانش - که به واقع گرایی ویدیوهایی که تولید می کند کمک می کند.

Veo همچنین از ویرایش پوشیده برای تغییرات در بخش‌های خاص ویدیو پشتیبانی می‌کند و می‌تواند از یک تصویر ثابت، مدل‌های تولیدکننده مانند Stability AI ویدیو تولید کند. شاید جذاب‌تر از همه، با توجه به دنباله‌ای از اعلان‌هایی که در کنار هم داستانی را بیان می‌کنند، Veo می‌تواند ویدیوهای طولانی‌تری ایجاد کند - ویدیوهایی بیش از یک دقیقه.

عکس ها را بپرسید

اعتبار تصویر: TechCrunch

Google Photos با راه‌اندازی ویژگی آزمایشی Ask Photos که توسط خانواده مدل‌های هوش مصنوعی جمینی Google ارائه می‌شود، از هوش مصنوعی استفاده می‌کند.

Ask Photos که اواخر تابستان امسال منتشر می‌شود، به کاربران امکان می‌دهد با استفاده از جستارهای زبان طبیعی که درک Gemini از محتوای عکس‌شان - و سایر ابرداده‌ها - در سراسر مجموعه Google Photos خود جستجو کنند.

به عنوان مثال، به جای جستجوی یک چیز خاص در یک عکس، مانند "One World Trade"، کاربران می توانند جستجوهای بسیار گسترده و پیچیده تری را انجام دهند، مانند یافتن "بهترین عکس از هر یک از پارک های ملی که من بازدید کردم". ” در آن مثال، Gemini از سیگنال‌هایی از جمله روشنایی، تاری و عدم اعوجاج پس‌زمینه برای تعیین اینکه چه چیزی یک عکس را در یک مجموعه معین «بهترین» می‌کند استفاده می‌کند و آن را با درک اطلاعات موقعیت جغرافیایی و تاریخ ترکیب می‌کند تا تصاویر مربوطه را بازگرداند.

جمینی در جیمیل

اعتبار تصویر: TechCrunch

کاربران Gmail به زودی می‌توانند با حسن نیت Gemini ایمیل‌ها را جستجو، خلاصه و پیش‌نویس کنند – و همچنین برای کارهای پیچیده‌تر، مانند کمک به فرآیند بازگرداندن، در مورد ایمیل‌ها اقدام کنند.

در یک نسخه نمایشی در I/O، گوگل نشان داد که چگونه والدینی که می‌خواهند به آنچه در مدرسه فرزندشان می‌گذرد پی ببرند، می‌توانند از Gemini بخواهند تمام ایمیل‌های اخیر مدرسه را خلاصه کند. جمینی علاوه بر بدنه خود ایمیل‌ها، پیوست‌ها مانند فایل‌های پی‌دی‌اف را نیز تجزیه و تحلیل می‌کند و خلاصه‌ای را با نکات کلیدی و موارد اقدام ارائه می‌کند.

از یک نوار کناری در جیمیل، کاربران می‌توانند از Gemini بخواهند به آنها کمک کند تا رسیدهای ایمیل‌هایشان را سازماندهی کنند و حتی آنها را در یک پوشه Google Drive قرار دهند، یا اطلاعاتی را از رسیدها استخراج کرده و در صفحه‌گسترده بچسبانند. اگر این کاری است که اغلب انجام می دهید - برای مثال، به عنوان یک مسافر تجاری که هزینه ها را ردیابی می کند - Gemini همچنین می تواند گردش کار را برای استفاده در آینده خودکار کند.

کشف کلاهبرداری در حین تماس

گوگل یک ویژگی مبتنی بر هوش مصنوعی را پیش‌نمایش کرد تا کاربران را از کلاهبرداری‌های احتمالی در طول تماس آگاه کند.

این قابلیت که در نسخه آینده اندروید تعبیه خواهد شد، از Gemini Nano، کوچکترین نسخه ارائه شده هوش مصنوعی مولد گوگل که می تواند کاملاً روی دستگاه اجرا شود، برای گوش دادن به "الگوهای مکالمه که معمولاً با کلاهبرداری ها مرتبط است" در زمان واقعی استفاده می کند. .

تاریخ انتشار خاصی برای این ویژگی تعیین نشده است. مانند بسیاری از این موارد، گوگل در حال پیش‌نمایش این است که Gemini Nano چقدر می‌تواند در آینده انجام دهد. با این حال، ما می دانیم که این ویژگی انتخابی خواهد بود - که چیز خوبی است. در حالی که استفاده از نانو به این معنی است که سیستم به طور خودکار صدا را در فضای ابری آپلود نمی کند، سیستم همچنان به طور موثر به مکالمات کاربران گوش می دهد - یک خطر بالقوه حریم خصوصی.

هوش مصنوعی برای دسترسی

اعتبار تصویر: گوگل

گوگل قابلیت دسترسی TalkBack خود را برای اندروید با کمی جادوی هوش مصنوعی تقویت می کند.

به زودی، TalkBack روی Gemini Nano برای ایجاد توضیحات شنیداری از اشیاء برای کاربران کم‌بینا و نابینا ضربه می‌زند. به عنوان مثال، TalkBack ممکن است به یک مقاله لباس به عنوان «نمای نزدیک از لباس سیاه و سفید گینگهام» اشاره کند. لباس کوتاه، با یقه و آستین بلند است. با کمان بزرگی به کمر بسته شده است. »

طبق گفته گوگل، کاربران TalkBack روزانه با حدود 90 تصویر بدون برچسب مواجه می شوند. با استفاده از Nano، سیستم قادر خواهد بود بینشی در مورد محتوا ارائه دهد - به طور بالقوه نیاز به وارد کردن دستی آن اطلاعات را از بین می برد.

درباره Google I/O 2024 در TechCrunch بیشتر بخوانید

خبرکاو

ارسال نظر




تبليغات ايهنا تبليغات ايهنا

تمامی حقوق مادی و معنوی این سایت متعلق به خبرکاو است و استفاده از مطالب با ذکر منبع بلامانع است