هوش مصنوعی جدید DeepMind موسیقی متن و دیالوگ برای ویدیوها تولید می کند

شناسهٔ خبر: 565451 - تاریخ: ژوئن 17, 2024

DeepMind، آزمایشگاه تحقیقاتی هوش مصنوعی گوگل، می گوید که در حال توسعه فناوری هوش مصنوعی برای تولید موسیقی متن فیلم ها است.

DeepMind در پستی در وبلاگ رسمی خود او میگوید که فناوری V2A (مخفف «ویدئو به صدا») را به عنوان یک قطعه ضروری از پازل رسانه‌ای تولید شده توسط هوش مصنوعی می‌بیند. در حالی که بسیاری از سازمان‌ها از جمله DeepMind مدل‌های هوش مصنوعی تولیدکننده ویدیو را توسعه داده‌اند، این مدل‌ها نمی‌توانند جلوه‌های صوتی را برای همگام‌سازی با ویدیوهایی که تولید می‌کنند ایجاد کنند.

DeepMind می نویسد: «مدل های تولید ویدیو با سرعتی باورنکردنی در حال پیشرفت هستند، اما بسیاری از سیستم های فعلی فقط می توانند خروجی بی صدا تولید کنند. فناوری V2A [می‌تواند] به یک رویکرد امیدوارکننده برای زنده کردن فیلم‌های تولید شده تبدیل شود.»

فناوری V2A DeepMind توصیف یک موسیقی متن (مثلاً "چرخ‌های دریایی در زیر آب، حیات دریایی، اقیانوس") همراه با یک ویدیو را برای ایجاد موسیقی، جلوه‌های صوتی و حتی دیالوگ‌هایی که با شخصیت‌ها و لحن ویدئو مطابقت دارد، همراه با دیپ‌فیک‌های DeepMind انجام می‌دهد. -مبارزه با تکنولوژی SynthID DeepMind او میگوید ، مدل هوش مصنوعی V2A که یک مدل انتشار است، با ترکیبی از صداها و متن‌های دیالوگ و همچنین کلیپ‌های ویدیویی آموزش داده شده است.

به گفته DeepMind، «با آموزش ویدیو، صدا و حاشیه‌نویسی‌های اضافی، فناوری ما یاد می‌گیرد که رویدادهای صوتی خاص را با صحنه‌های بصری مختلف مرتبط کند، در حالی که به اطلاعات ارائه‌شده در حاشیه‌نویسی‌ها یا رونوشت‌ها پاسخ می‌دهد».

مادر در مورد اینکه آیا هر یک از داده های آموزشی دارای حق چاپ است یا خیر - و اینکه آیا سازندگان داده ها از کار DeepMind مطلع شده اند یا خیر، صحبت می کند. ما برای شفاف‌سازی با DeepMind تماس گرفته‌ایم و در صورت شنیدن پاسخ، این پست را به‌روزرسانی خواهیم کرد.

دیگر اخبار

امروز در فضا: مریخ‌نورد اسپریت به فضا پرتاب شد

ابزارهای تولید صدا با هوش مصنوعی جدید نیستند. استارتاپ استیبلی AI یکی از آن ها را هفته گذشته منتشر کرد و ElevenLabs یکی را در ماه می راه اندازی کرد. همچنین مدل هایی برای ایجاد جلوه های صوتی ویدیویی وجود ندارد. یک پروژه مایکروسافت می‌تواند ویدیوهای مکالمه و آواز را از یک تصویر ثابت تولید کند، و پلتفرم‌هایی مانند Pika و GenreX مدل‌هایی را آموزش داده‌اند تا فیلم بگیرند و بهترین حدس را در مورد موسیقی یا جلوه‌های مناسب در یک صحنه خاص انجام دهند.

اما DeepMind ادعا می‌کند که فناوری V2A آن منحصربه‌فرد است زیرا می‌تواند پیکسل‌های خام یک ویدیو را درک کند و صداهای تولید شده را با ویدیو به صورت خودکار همگام‌سازی کند، به‌صورت اختیاری بدون توضیحات.

V2A کامل نیست و DeepMind این را تأیید می کند. از آنجایی که مدل زیربنایی روی بسیاری از ویدیوهای دارای مصنوعات یا اعوجاج آموزش ندیده است، صدای باکیفیت خاصی برای این موارد ایجاد نمی کند. و به طور کلی، صدای تولید شده فوق العاده قانع کننده نیست. همکارم ناتاشا لوماس آن را به‌عنوان «تغییری از صداهای کلیشه‌ای» توصیف کرد، و نمی‌توانم بگویم که مخالفم.

بیشتر بخوانید

مطالبه اتاق ایران رفع تحریم‌ ها باشد / دولت به بخش خصوصی بدبین نباشد / مشکل اصلی سرکوب ارزی است

به این دلایل و برای جلوگیری از سوء استفاده، DeepMind می گوید که این فناوری را به این زودی ها در دسترس عموم قرار نخواهد داد.

DeepMind می‌نویسد: «برای اطمینان از اینکه فناوری V2A ما می‌تواند تأثیر مثبتی بر جامعه خلاق داشته باشد، دیدگاه‌ها و بینش‌های متنوعی را از سازندگان و فیلم‌سازان برجسته جمع‌آوری می‌کنیم و از این بازخورد ارزشمند برای اطلاع‌رسانی به تحقیق و توسعه مداوم خود استفاده می‌کنیم. قبل از اینکه دسترسی به آن را برای عموم مردم باز کنیم، فناوری V2A ما تحت ارزیابی‌ها و آزمایش‌های ایمنی دقیق قرار خواهد گرفت.

DeepMind فناوری V2A خود را به عنوان یک ابزار مفید ویژه برای آرشیوداران و افرادی که با فیلم‌های تاریخی کار می‌کنند معرفی می‌کند. اما هوش مصنوعی مولد در این مسیر صنعت سینما و تلویزیون را نیز تهدید می کند. برای اطمینان از اینکه ابزارهای رسانه‌ای مولد مشاغل را حذف نمی‌کنند - یا در صورت امکان، کل حرفه‌ها را از بین نمی‌برند، به برخی از حمایت‌های جدی نیروی کار نیاز دارد.

خبرکاو