مدل Meta’s Movie Gen ویدیوی واقع گرایانه را با صدا پخش می کند، بنابراین ما در نهایت می توانیم مو دنگ بی نهایت داشته باشیم

مدل Meta’s Movie Gen ویدیوی واقع گرایانه را با صدا پخش می کند، بنابراین ما در نهایت می توانیم مو دنگ بی نهایت داشته باشیم

شناسهٔ خبر: 775127 - تاریخ: اکتبر 4, 2024

TechCrunch (TechCrunch)

هنوز هیچ‌کس نمی‌داند مدل‌های ویدیویی مولد برای چه مواردی مفید هستند، اما این امر مانع از سرمایه‌گذاری میلیون‌ها دلاری شرکت‌هایی مانند Runway، OpenAI و Meta برای توسعه آن‌ها نشده است. آخرین نسخه متا Movie Gen نام دارد، و مطابق با نام خود، پیام های متنی را به ویدیوی نسبتا واقعی با صدا تبدیل می کند ... اما خوشبختانه هنوز صدایی وجود ندارد. و عاقلانه آنها این یکی را منتشر نمی کنند.

Movie Gen در واقع مجموعه ای (یا به قول خودشان "بازیگران") از مدل های پایه است که بزرگترین آنها بیت متن به ویدئو است. متا ادعا می کند که عملکردی بهتر از بازی هایی مانند Runway's Gen3، جدیدترین LumaLabs و Kling1.5 دارد، اگرچه مانند همیشه این نوع چیزها بیشتر نشان می دهد که آنها همان بازی را انجام می دهند تا اینکه Movie Gen برنده شود. مشخصات فنی را می توان در مقاله Meta که همه اجزا را توصیف می کند، یافت.

صدا برای مطابقت با محتویات ویدیو تولید می‌شود، به‌عنوان مثال صداهای موتور که با حرکات ماشین مطابقت دارد، یا هجوم یک آبشار در پس‌زمینه، یا صدای رعد و برق در نیمه راه ویدیو در هنگام فراخوانی اضافه می‌شود. حتی اگر مرتبط به نظر می رسد موسیقی اضافه می کند.

این مجموعه بر روی "ترکیبی از مجموعه داده‌های دارای مجوز و در دسترس عموم" که آنها آن را "تخصصی/تجاری حساس" می‌نامیدند آموزش داده شد و جزئیات بیشتری در مورد آن ارائه ن کرد. ما فقط می‌توانیم حدس بزنیم که تعداد زیادی ویدیوی اینستاگرام و فیس‌بوک، به‌علاوه برخی از چیزهای شریک و بسیاری دیگر که به اندازه کافی در برابر خراش‌ها محافظت نمی‌شوند - AKA "در دسترس عموم" است.

با این حال، آنچه متا به وضوح در اینجا به دنبال آن است، صرفاً تصاحب تاج "وضعیت هنر" برای یک یا دو ماه نیست، بلکه یک رویکرد عملی، سوپ به آجیل است که در آن می توان یک محصول نهایی جامد را از یک روش بسیار ساده تولید کرد. ، اعلان زبان طبیعی. چیزهایی مانند "من را به عنوان یک نانوا تصور کنید که در یک طوفان یک کیک اسب آبی براق درست می کند."

برای مثال، یکی از نکات مهم برای این تولیدکننده‌های ویدئو، سختی ویرایش آنها بوده است. اگر از شخصی که در آن طرف خیابان راه می‌رود بخواهید، سپس متوجه شوید که می‌خواهید به جای چپ به راست، از راست به چپ راه برود، این احتمال وجود دارد که وقتی دستور را با آن دستورالعمل اضافی تکرار می‌کنید، کل عکس متفاوت به نظر برسد. متا یک روش ویرایشی ساده و مبتنی بر متن را اضافه می کند که در آن می توانید به سادگی بگویید "پس زمینه را به یک تقاطع شلوغ تغییر دهید" یا "لباسش را به لباس قرمز تغییر دهید" و سعی می کند این تغییر را ایجاد کند، اما فقط آن تغییر را.

بیشتر بخوانید

بسته پاداش 56 میلیارد دلاری ایلان ماسک بار دیگر توسط سهامداران تسلا تأیید شد

حرکات دوربین نیز به طور کلی قابل درک است، با مواردی مانند "تصویر ردیابی" و "پان چپ" در هنگام تولید ویدیو. این هنوز در مقایسه با کنترل دوربین واقعی بسیار ناشیانه است، اما از هیچ چیز بسیار بهتر است.

محدودیت های مدل کمی عجیب است. ویدئویی با عرض 768 پیکسل تولید می‌کند، ابعادی که برای بیشتر افراد از 1024×768 معروف اما قدیمی آشناست، اما سه برابر ۲۵۶ است که باعث می‌شود با سایر فرمت‌های HD به خوبی پخش شود. سیستم Movie Gen این را به 1080p ارتقا می‌دهد، که منبع این ادعاست که این وضوح را تولید می‌کند. واقعاً درست نیست، اما ما به آنها مجوز می دهیم زیرا ارتقاء مقیاس به طرز شگفت انگیزی مؤثر است.

دیگر اخبار

شرایط فروش KMC X5 با قیمت جدید از امروز آغاز می‌شود [شهریور 1403]

به طور عجیبی، تا 16 ثانیه ویدیو تولید می کند ... با سرعت 16 فریم در ثانیه، نرخ فریمی که هیچ کس در تاریخ هرگز آن را نخواسته یا خواسته است. با این حال، می توانید 10 ثانیه ویدیو با سرعت 24 فریم بر ثانیه نیز انجام دهید. رهبری با آن یکی!

در مورد اینکه چرا صدا را انجام نمی دهد ... خوب، احتمالاً دو دلیل وجود دارد. اول اینکه خیلی سخته در حال حاضر تولید گفتار آسان است، اما تطبیق آن با حرکات لب، و آن لب ها با حرکات صورت، پیشنهاد بسیار پیچیده تری است. من آنها را سرزنش نمی‌کنم که این یکی را بعداً گذاشتند، زیرا این یک مورد یک دقیقه‌ای شکست خواهد بود. کسی می‌تواند بگوید «در حین دوچرخه‌سواری کوچک در دایره‌ای، یک دلقک ایجاد کنید که نشانی گتیزبورگ را ارائه می‌کند» - سوخت کابوس‌هایی که برای ویروسی شدن آماده شده است.

دلیل دوم احتمالاً سیاسی است: نشان دادن چیزی که یک ماه قبل از یک انتخابات مهم به معنای تولید کننده دیپ فیک است. .. بهترین گزینه برای اپتیک نیست. کمی کوچک کردن قابلیت‌های آن به طوری که اگر عوامل مخرب سعی در استفاده از آن داشته باشند، نیاز به کار واقعی از جانب آنها باشد، یک اقدام پیشگیرانه عملی است. مطمئناً می‌توان این مدل مولد را با یک مولد گفتار و یک همگام‌سازی لب باز ترکیب کرد، اما نمی‌توان آن را به عنوان نامزدی مجبور کرد که ادعاهای وحشیانه‌ای داشته باشد.

یکی از نمایندگان متا در پاسخ به سؤالات TechCrunch گفت: «Movie Gen صرفاً یک مفهوم تحقیقاتی هوش مصنوعی در حال حاضر است، و حتی در این مرحله اولیه، ایمنی اولویت اصلی است همانطور که در مورد همه فناوری‌های هوش مصنوعی مولد ما بوده است.

برخلاف، مثلاً، مدل‌های زبان بزرگ Llama، Movie Gen برای عموم در دسترس نخواهد بود. می‌توانید با دنبال کردن مقاله تحقیقاتی، تکنیک‌های آن را تا حدودی تکرار کنید، اما کد منتشر نمی‌شود، به جز «مجموعه داده‌های ضروری ارزیابی اساسی»، که به معنای رکوردی است که از چه اعلان‌هایی برای تولید ویدیوهای آزمایشی استفاده شده است.

خبرکاو