هوش مصنوعی جدید DeepMind موسیقی متن و دیالوگ برای ویدیوها تولید می کند
DeepMind، آزمایشگاه تحقیقاتی هوش مصنوعی گوگل، می گوید که در حال توسعه فناوری هوش مصنوعی برای تولید موسیقی متن فیلم ها است.
DeepMind در پستی در وبلاگ رسمی خود او میگوید که فناوری V2A (مخفف «ویدئو به صدا») را به عنوان یک قطعه ضروری از پازل رسانهای تولید شده توسط هوش مصنوعی میبیند. در حالی که بسیاری از سازمانها از جمله DeepMind مدلهای هوش مصنوعی تولیدکننده ویدیو را توسعه دادهاند، این مدلها نمیتوانند جلوههای صوتی را برای همگامسازی با ویدیوهایی که تولید میکنند ایجاد کنند.
DeepMind می نویسد: «مدل های تولید ویدیو با سرعتی باورنکردنی در حال پیشرفت هستند، اما بسیاری از سیستم های فعلی فقط می توانند خروجی بی صدا تولید کنند. فناوری V2A [میتواند] به یک رویکرد امیدوارکننده برای زنده کردن فیلمهای تولید شده تبدیل شود.»
فناوری V2A DeepMind توصیف یک موسیقی متن (مثلاً "چرخهای دریایی در زیر آب، حیات دریایی، اقیانوس") همراه با یک ویدیو را برای ایجاد موسیقی، جلوههای صوتی و حتی دیالوگهایی که با شخصیتها و لحن ویدئو مطابقت دارد، همراه با دیپفیکهای DeepMind انجام میدهد. -مبارزه با تکنولوژی SynthID DeepMind او میگوید ، مدل هوش مصنوعی V2A که یک مدل انتشار است، با ترکیبی از صداها و متنهای دیالوگ و همچنین کلیپهای ویدیویی آموزش داده شده است.
به گفته DeepMind، «با آموزش ویدیو، صدا و حاشیهنویسیهای اضافی، فناوری ما یاد میگیرد که رویدادهای صوتی خاص را با صحنههای بصری مختلف مرتبط کند، در حالی که به اطلاعات ارائهشده در حاشیهنویسیها یا رونوشتها پاسخ میدهد».
مادر در مورد اینکه آیا هر یک از داده های آموزشی دارای حق چاپ است یا خیر - و اینکه آیا سازندگان داده ها از کار DeepMind مطلع شده اند یا خیر، صحبت می کند. ما برای شفافسازی با DeepMind تماس گرفتهایم و در صورت شنیدن پاسخ، این پست را بهروزرسانی خواهیم کرد.
ابزارهای تولید صدا با هوش مصنوعی جدید نیستند. استارتاپ استیبلی AI یکی از آن ها را هفته گذشته منتشر کرد و ElevenLabs یکی را در ماه می راه اندازی کرد. همچنین مدل هایی برای ایجاد جلوه های صوتی ویدیویی وجود ندارد. یک پروژه مایکروسافت میتواند ویدیوهای مکالمه و آواز را از یک تصویر ثابت تولید کند، و پلتفرمهایی مانند Pika و GenreX مدلهایی را آموزش دادهاند تا فیلم بگیرند و بهترین حدس را در مورد موسیقی یا جلوههای مناسب در یک صحنه خاص انجام دهند.
اما DeepMind ادعا میکند که فناوری V2A آن منحصربهفرد است زیرا میتواند پیکسلهای خام یک ویدیو را درک کند و صداهای تولید شده را با ویدیو به صورت خودکار همگامسازی کند، بهصورت اختیاری بدون توضیحات.
V2A کامل نیست و DeepMind این را تأیید می کند. از آنجایی که مدل زیربنایی روی بسیاری از ویدیوهای دارای مصنوعات یا اعوجاج آموزش ندیده است، صدای باکیفیت خاصی برای این موارد ایجاد نمی کند. و به طور کلی، صدای تولید شده فوق العاده قانع کننده نیست. همکارم ناتاشا لوماس آن را بهعنوان «تغییری از صداهای کلیشهای» توصیف کرد، و نمیتوانم بگویم که مخالفم.
بیشتر بخوانید
مطالبه اتاق ایران رفع تحریم ها باشد / دولت به بخش خصوصی بدبین نباشد / مشکل اصلی سرکوب ارزی است
به این دلایل و برای جلوگیری از سوء استفاده، DeepMind می گوید که این فناوری را به این زودی ها در دسترس عموم قرار نخواهد داد.
DeepMind مینویسد: «برای اطمینان از اینکه فناوری V2A ما میتواند تأثیر مثبتی بر جامعه خلاق داشته باشد، دیدگاهها و بینشهای متنوعی را از سازندگان و فیلمسازان برجسته جمعآوری میکنیم و از این بازخورد ارزشمند برای اطلاعرسانی به تحقیق و توسعه مداوم خود استفاده میکنیم. قبل از اینکه دسترسی به آن را برای عموم مردم باز کنیم، فناوری V2A ما تحت ارزیابیها و آزمایشهای ایمنی دقیق قرار خواهد گرفت.
DeepMind فناوری V2A خود را به عنوان یک ابزار مفید ویژه برای آرشیوداران و افرادی که با فیلمهای تاریخی کار میکنند معرفی میکند. اما هوش مصنوعی مولد در این مسیر صنعت سینما و تلویزیون را نیز تهدید می کند. برای اطمینان از اینکه ابزارهای رسانهای مولد مشاغل را حذف نمیکنند - یا در صورت امکان، کل حرفهها را از بین نمیبرند، به برخی از حمایتهای جدی نیروی کار نیاز دارد.
ارسال نظر