گوگل با Lumiere، یک مدل هوش مصنوعی جدید که قادر به ایجاد محتوای شگفتآور با کیفیت بالا است، یک کرک دیگر در تولید متن به ویدئو انجام میدهد.
این غول فناوری مطمئناً از روزهای Imagen Video فاصله زیادی گرفته است. سوژه های ویدیوهای Lumiere دیگر این موجودات کابوس وار با چهره های در حال ذوب نیستند. اکنون همه چیز بسیار واقعی تر به نظر می رسد. لاکپشتهای دریایی شبیه لاکپشتهای دریایی هستند، خز روی حیوانات بافت مناسبی دارد، و افراد در کلیپهای هوش مصنوعی لبخندهای واقعی دارند (بیشتر). علاوه بر این، در سایر هوش مصنوعی های مولد متن به ویدئو، میزان بسیار کمی از حرکت تند و ناگهانی عجیب و غریب دیده می شود. حرکت تا حد زیادی مانند کره صاف است. Inbar Mosseri، سرپرست تیم تحقیقاتی Google Research، ویدئویی را در کانال یوتیوب خود منتشر کرد که توانایی های Lumiere را نشان می دهد.
گوگل برای اینکه محتوای Lumiere تا حد امکان واقعی به نظر برسد، تلاش زیادی کرده است. تیم توسعه دهنده این کار را با اجرای چیزی به نام معماری U-Net فضا-زمان (STUNet) انجام داد. فناوری پشت STUNet بسیار پیچیده است. اما همانطور که Ars Technica توضیح میدهد ، به Lumiere اجازه میدهد بفهمد که اشیاء در یک ویدیو کجا هستند، چگونه حرکت میکنند و چگونه تغییر میکنند و این اقدامات را همزمان انجام میدهد که منجر به ایجاد یک جریان روان میشود.
این برخلاف دیگر پلتفرمهای مولد است که ابتدا فریمهای کلیدی را در کلیپها ایجاد میکنند و سپس شکافها را پر میکنند. انجام این کار منجر به حرکت تند و سریعی می شود که فناوری به آن معروف است.
به خوبی مجهز شده است
علاوه بر تولید متن به ویدیو، Lumiere دارای ویژگی های متعددی در جعبه ابزار خود است که از جمله آنها می توان به پشتیبانی از چندوجهی اشاره کرد.
کاربران می توانند تصاویر یا ویدیوهای منبع را در هوش مصنوعی آپلود کنند تا بتواند آنها را مطابق با مشخصات خود ویرایش کند. برای مثال، میتوانید تصویری از دختری با گوشواره مروارید اثر یوهانس ورمیر را آپلود کنید و آن را به یک کلیپ کوتاه تبدیل کنید که در آن به جای خیره شدن بیپروا، لبخند میزند. Lumiere همچنین دارای قابلیتی به نام Cinemagraph است که می تواند بخش های هایلایت شده تصاویر را متحرک کند.
گوگل این را با انتخاب پروانه ای که روی گل نشسته است نشان می دهد. به لطف هوش مصنوعی، ویدئوی خروجی پروانه بال های خود را تکان می دهد در حالی که گل های اطراف آن ثابت می مانند.
وقتی صحبت از ویدیو به میان میآید، چیزها به ویژه چشمگیر میشوند. Video Inpainting، یکی دیگر از ویژگیها، عملکردی مشابه Cinemagraph دارد، زیرا هوش مصنوعی میتواند بخشهایی از کلیپها را ویرایش کند. لباس سبز طرح دار زنانه را می توان به طلایی براق یا مشکی تبدیل کرد. Lumiere با ارائه سبکسازی ویدئو برای تغییر سوژههای ویدئویی یک قدم جلوتر میرود. یک ماشین معمولی که در جاده رانندگی می کند می تواند به وسیله نقلیه ای تبدیل شود که کاملاً از چوب یا آجر لگو ساخته شده است.
هنوز در کار است
مشخص نیست که آیا برنامههایی برای عرضه عمومی Lumiere وجود دارد یا گوگل قصد دارد آن را به عنوان یک سرویس جدید پیادهسازی کند.
شاید بتوانیم شاهد نمایش هوش مصنوعی در گوشی پیکسل آینده به عنوان تکامل Magic Editor باشیم. اگر با آن آشنایی ندارید، Magic Editor از «پردازش هوش مصنوعی [برای] تغییر هوشمندانه فضاها یا اشیاء در عکسهای پیکسل 8 استفاده میکند. به نظر ما، نقاشی ویدیویی یک پیشرفت طبیعی برای فناوری است.
در حال حاضر، به نظر می رسد که تیم قرار است آن را پشت درهای بسته نگه دارد. هر چقدر هم که این هوش مصنوعی چشمگیر باشد، همچنان مشکلات خود را دارد. انیمیشن های Jerky وجود دارد. در موارد دیگر، آزمودنیها دارای اندامهایی هستند که به شکل خمیده در میآیند. اگر میخواهید بیشتر بدانید، مقاله تحقیقاتی Google در مورد Lumiere را میتوانید در وبسایت arXiv دانشگاه کرنل بیابید. هشدار داده می شود: این یک خواندن متراکم است.
و مطمئن شوید که جمع بندی TechRadar از بهترین مولدهای هنر هوش مصنوعی برای سال 2024 را تحلیل کنید.
ارسال نظر