برترین اعلامیه های هوش مصنوعی از Google I/O
گوگل روی هوش مصنوعی همه کاره میشود – و میخواهد شما آن را بدانید. در طول سخنرانی اصلی این شرکت در کنفرانس توسعه دهندگان I/O خود در روز سه شنبه، گوگل بیش از 120 بار از "AI" نام برد. آن خیلی زیاد است!
اما همه اعلامیه های هوش مصنوعی گوگل به خودی خود قابل توجه نبودند. برخی افزایشی بودند. سایرین مجدداً تکرار شدند. پس برای کمک به تفکیک گندم از کاه، برترین محصولات و آپشن های جدید هوش مصنوعی را که در Google I/O 2024 رونمایی شده بود، گردآوری کردیم.
هوش مصنوعی مولد در جستجو
گوگل قصد دارد از هوش مصنوعی برای سازماندهی کل صفحات نتایج جستجوی گوگل استفاده کند.
صفحات سازماندهی شده با هوش مصنوعی چگونه خواهند بود؟ خوب، بستگی به جستجوی جستجو دارد. گوگل گفت، اما ممکن است خلاصهای از بررسیها، بحثها از سایتهای رسانههای اجتماعی مانند Reddit و فهرستهای پیشنهادات ایجاد شده توسط هوش مصنوعی را نشان دهند.
در حال حاضر، گوگل قصد دارد صفحات نتایج تقویت شده با هوش مصنوعی را هنگامی که تشخیص دهد کاربر به دنبال الهام گرفتن است - به عنوان مثال، زمانی که در حال برنامه ریزی سفر است، نشان دهد. بهزودی، هنگامی که کاربران گزینههای غذاخوری و دستور العملها را جستجو میکنند، این نتایج را نشان میدهد و نتایجی برای فیلمها، کتابها، هتلها، تجارت الکترونیک و موارد دیگر در آینده خواهد داشت.
پروژه Astra و Gemini Live
گوگل در حال بهبود ربات چت جمینی مبتنی بر هوش مصنوعی است تا بتواند دنیای اطراف خود را بهتر درک کند.
این شرکت پیشنمایش تجربه جدیدی را در Gemini به نام Gemini Live ارائه کرد که به کاربران امکان میدهد در گوشیهای هوشمند خود با جمینی چت صوتی «عمیق» داشته باشند. کاربران می توانند در حین صحبت کردن ربات چت، جمینی را قطع کنند تا سؤالات واضحی بپرسند، و در زمان واقعی با الگوهای گفتار آنها سازگار می شود. و Gemini میتواند محیط اطراف کاربران را ببیند و به آنها پاسخ دهد، چه از طریق عکسها یا ویدیوهایی که توسط دوربین گوشیهای هوشمندشان گرفته شده است.
Gemini Live - که تا اواخر امسال راه اندازی نمی شود - می تواند به سؤالاتی در مورد چیزهایی که در دید (یا اخیراً در معرض دید) دوربین تلفن هوشمند قرار دارند، پاسخ دهد، مانند محله ای که کاربر ممکن است در کدام محله باشد یا نام بخشی از یک دوچرخه شکسته. نوآوریهای فنی که Live را هدایت میکنند تا حدی از Project Astra سرچشمه میگیرد، یک ابتکار جدید در DeepMind برای ایجاد برنامهها و «عاملهای» مبتنی بر هوش مصنوعی برای درک همزمان و چندوجهی.
Google Veo
تلاش گوگل برای OpenAI's Sora با Veo، یک مدل هوش مصنوعی که میتواند کلیپهای ویدیویی 1080p در حدود یک دقیقه با یک پیام متنی ایجاد کند.
Veo میتواند سبکهای مختلف بصری و سینمایی، از جمله عکسهایی از مناظر و تایم لپس را به تصویر بکشد، و ویرایشها و تنظیماتی را روی فیلمهایی که از قبل ایجاد شده است انجام دهد. این مدل حرکات دوربین و VFX را به خوبی از اعلانها درک میکند (به توصیفهایی مانند "پن"، "زوم" و "انفجار" فکر کنید). و Veo تا حدودی درک درستی از فیزیک دارد - چیزهایی مانند دینامیک سیالات و گرانش - که به واقع گرایی ویدیوهایی که تولید می کند کمک می کند.
Veo همچنین از ویرایش پوشیده برای تغییرات در بخشهای خاص ویدیو پشتیبانی میکند و میتواند از یک تصویر ثابت، مدلهای تولیدکننده مانند Stability AI ویدیو تولید کند. شاید جذابتر از همه، با توجه به دنبالهای از اعلانهایی که در کنار هم داستانی را بیان میکنند، Veo میتواند ویدیوهای طولانیتری ایجاد کند - ویدیوهایی بیش از یک دقیقه.
عکس ها را بپرسید
Google Photos با راهاندازی ویژگی آزمایشی Ask Photos که توسط خانواده مدلهای هوش مصنوعی جمینی Google ارائه میشود، از هوش مصنوعی استفاده میکند.
Ask Photos که اواخر تابستان امسال منتشر میشود، به کاربران امکان میدهد با استفاده از جستارهای زبان طبیعی که درک Gemini از محتوای عکسشان - و سایر ابردادهها - در سراسر مجموعه Google Photos خود جستجو کنند.
به عنوان مثال، به جای جستجوی یک چیز خاص در یک عکس، مانند "One World Trade"، کاربران می توانند جستجوهای بسیار گسترده و پیچیده تری را انجام دهند، مانند یافتن "بهترین عکس از هر یک از پارک های ملی که من بازدید کردم". ” در آن مثال، Gemini از سیگنالهایی از جمله روشنایی، تاری و عدم اعوجاج پسزمینه برای تعیین اینکه چه چیزی یک عکس را در یک مجموعه معین «بهترین» میکند استفاده میکند و آن را با درک اطلاعات موقعیت جغرافیایی و تاریخ ترکیب میکند تا تصاویر مربوطه را بازگرداند.
جمینی در جیمیل
کاربران Gmail به زودی میتوانند با حسن نیت Gemini ایمیلها را جستجو، خلاصه و پیشنویس کنند – و همچنین برای کارهای پیچیدهتر، مانند کمک به فرآیند بازگرداندن، در مورد ایمیلها اقدام کنند.
در یک نسخه نمایشی در I/O، گوگل نشان داد که چگونه والدینی که میخواهند به آنچه در مدرسه فرزندشان میگذرد پی ببرند، میتوانند از Gemini بخواهند تمام ایمیلهای اخیر مدرسه را خلاصه کند. جمینی علاوه بر بدنه خود ایمیلها، پیوستها مانند فایلهای پیدیاف را نیز تجزیه و تحلیل میکند و خلاصهای را با نکات کلیدی و موارد اقدام ارائه میکند.
از یک نوار کناری در جیمیل، کاربران میتوانند از Gemini بخواهند به آنها کمک کند تا رسیدهای ایمیلهایشان را سازماندهی کنند و حتی آنها را در یک پوشه Google Drive قرار دهند، یا اطلاعاتی را از رسیدها استخراج کرده و در صفحهگسترده بچسبانند. اگر این کاری است که اغلب انجام می دهید - برای مثال، به عنوان یک مسافر تجاری که هزینه ها را ردیابی می کند - Gemini همچنین می تواند گردش کار را برای استفاده در آینده خودکار کند.
کشف کلاهبرداری در حین تماس
گوگل یک ویژگی مبتنی بر هوش مصنوعی را پیشنمایش کرد تا کاربران را از کلاهبرداریهای احتمالی در طول تماس آگاه کند.
این قابلیت که در نسخه آینده اندروید تعبیه خواهد شد، از Gemini Nano، کوچکترین نسخه ارائه شده هوش مصنوعی مولد گوگل که می تواند کاملاً روی دستگاه اجرا شود، برای گوش دادن به "الگوهای مکالمه که معمولاً با کلاهبرداری ها مرتبط است" در زمان واقعی استفاده می کند. .
تاریخ انتشار خاصی برای این ویژگی تعیین نشده است. مانند بسیاری از این موارد، گوگل در حال پیشنمایش این است که Gemini Nano چقدر میتواند در آینده انجام دهد. با این حال، ما می دانیم که این ویژگی انتخابی خواهد بود - که چیز خوبی است. در حالی که استفاده از نانو به این معنی است که سیستم به طور خودکار صدا را در فضای ابری آپلود نمی کند، سیستم همچنان به طور موثر به مکالمات کاربران گوش می دهد - یک خطر بالقوه حریم خصوصی.
هوش مصنوعی برای دسترسی
گوگل قابلیت دسترسی TalkBack خود را برای اندروید با کمی جادوی هوش مصنوعی تقویت می کند.
به زودی، TalkBack روی Gemini Nano برای ایجاد توضیحات شنیداری از اشیاء برای کاربران کمبینا و نابینا ضربه میزند. به عنوان مثال، TalkBack ممکن است به یک مقاله لباس به عنوان «نمای نزدیک از لباس سیاه و سفید گینگهام» اشاره کند. لباس کوتاه، با یقه و آستین بلند است. با کمان بزرگی به کمر بسته شده است. »
طبق گفته گوگل، کاربران TalkBack روزانه با حدود 90 تصویر بدون برچسب مواجه می شوند. با استفاده از Nano، سیستم قادر خواهد بود بینشی در مورد محتوا ارائه دهد - به طور بالقوه نیاز به وارد کردن دستی آن اطلاعات را از بین می برد.
ارسال نظر