مدل Meta’s Movie Gen ویدیوی واقع گرایانه را با صدا پخش می کند، بنابراین ما در نهایت می توانیم مو دنگ بی نهایت داشته باشیم
هنوز هیچکس نمیداند مدلهای ویدیویی مولد برای چه مواردی مفید هستند، اما این امر مانع از سرمایهگذاری میلیونها دلاری شرکتهایی مانند Runway، OpenAI و Meta برای توسعه آنها نشده است. آخرین نسخه متا Movie Gen نام دارد، و مطابق با نام خود، پیام های متنی را به ویدیوی نسبتا واقعی با صدا تبدیل می کند ... اما خوشبختانه هنوز صدایی وجود ندارد. و عاقلانه آنها این یکی را منتشر نمی کنند.
Movie Gen در واقع مجموعه ای (یا به قول خودشان "بازیگران") از مدل های پایه است که بزرگترین آنها بیت متن به ویدئو است. متا ادعا می کند که عملکردی بهتر از بازی هایی مانند Runway's Gen3، جدیدترین LumaLabs و Kling1.5 دارد، اگرچه مانند همیشه این نوع چیزها بیشتر نشان می دهد که آنها همان بازی را انجام می دهند تا اینکه Movie Gen برنده شود. مشخصات فنی را می توان در مقاله Meta که همه اجزا را توصیف می کند، یافت.
صدا برای مطابقت با محتویات ویدیو تولید میشود، بهعنوان مثال صداهای موتور که با حرکات ماشین مطابقت دارد، یا هجوم یک آبشار در پسزمینه، یا صدای رعد و برق در نیمه راه ویدیو در هنگام فراخوانی اضافه میشود. حتی اگر مرتبط به نظر می رسد موسیقی اضافه می کند.
این مجموعه بر روی "ترکیبی از مجموعه دادههای دارای مجوز و در دسترس عموم" که آنها آن را "تخصصی/تجاری حساس" مینامیدند آموزش داده شد و جزئیات بیشتری در مورد آن ارائه ن کرد. ما فقط میتوانیم حدس بزنیم که تعداد زیادی ویدیوی اینستاگرام و فیسبوک، بهعلاوه برخی از چیزهای شریک و بسیاری دیگر که به اندازه کافی در برابر خراشها محافظت نمیشوند - AKA "در دسترس عموم" است.
با این حال، آنچه متا به وضوح در اینجا به دنبال آن است، صرفاً تصاحب تاج "وضعیت هنر" برای یک یا دو ماه نیست، بلکه یک رویکرد عملی، سوپ به آجیل است که در آن می توان یک محصول نهایی جامد را از یک روش بسیار ساده تولید کرد. ، اعلان زبان طبیعی. چیزهایی مانند "من را به عنوان یک نانوا تصور کنید که در یک طوفان یک کیک اسب آبی براق درست می کند."
برای مثال، یکی از نکات مهم برای این تولیدکنندههای ویدئو، سختی ویرایش آنها بوده است. اگر از شخصی که در آن طرف خیابان راه میرود بخواهید، سپس متوجه شوید که میخواهید به جای چپ به راست، از راست به چپ راه برود، این احتمال وجود دارد که وقتی دستور را با آن دستورالعمل اضافی تکرار میکنید، کل عکس متفاوت به نظر برسد. متا یک روش ویرایشی ساده و مبتنی بر متن را اضافه می کند که در آن می توانید به سادگی بگویید "پس زمینه را به یک تقاطع شلوغ تغییر دهید" یا "لباسش را به لباس قرمز تغییر دهید" و سعی می کند این تغییر را ایجاد کند، اما فقط آن تغییر را.
حرکات دوربین نیز به طور کلی قابل درک است، با مواردی مانند "تصویر ردیابی" و "پان چپ" در هنگام تولید ویدیو. این هنوز در مقایسه با کنترل دوربین واقعی بسیار ناشیانه است، اما از هیچ چیز بسیار بهتر است.
محدودیت های مدل کمی عجیب است. ویدئویی با عرض 768 پیکسل تولید میکند، ابعادی که برای بیشتر افراد از 1024×768 معروف اما قدیمی آشناست، اما سه برابر ۲۵۶ است که باعث میشود با سایر فرمتهای HD به خوبی پخش شود. سیستم Movie Gen این را به 1080p ارتقا میدهد، که منبع این ادعاست که این وضوح را تولید میکند. واقعاً درست نیست، اما ما به آنها مجوز می دهیم زیرا ارتقاء مقیاس به طرز شگفت انگیزی مؤثر است.
به طور عجیبی، تا 16 ثانیه ویدیو تولید می کند ... با سرعت 16 فریم در ثانیه، نرخ فریمی که هیچ کس در تاریخ هرگز آن را نخواسته یا خواسته است. با این حال، می توانید 10 ثانیه ویدیو با سرعت 24 فریم بر ثانیه نیز انجام دهید. رهبری با آن یکی!
در مورد اینکه چرا صدا را انجام نمی دهد ... خوب، احتمالاً دو دلیل وجود دارد. اول اینکه خیلی سخته در حال حاضر تولید گفتار آسان است، اما تطبیق آن با حرکات لب، و آن لب ها با حرکات صورت، پیشنهاد بسیار پیچیده تری است. من آنها را سرزنش نمیکنم که این یکی را بعداً گذاشتند، زیرا این یک مورد یک دقیقهای شکست خواهد بود. کسی میتواند بگوید «در حین دوچرخهسواری کوچک در دایرهای، یک دلقک ایجاد کنید که نشانی گتیزبورگ را ارائه میکند» - سوخت کابوسهایی که برای ویروسی شدن آماده شده است.
دلیل دوم احتمالاً سیاسی است: نشان دادن چیزی که یک ماه قبل از یک انتخابات مهم به معنای تولید کننده دیپ فیک است. .. بهترین گزینه برای اپتیک نیست. کمی کوچک کردن قابلیتهای آن به طوری که اگر عوامل مخرب سعی در استفاده از آن داشته باشند، نیاز به کار واقعی از جانب آنها باشد، یک اقدام پیشگیرانه عملی است. مطمئناً میتوان این مدل مولد را با یک مولد گفتار و یک همگامسازی لب باز ترکیب کرد، اما نمیتوان آن را به عنوان نامزدی مجبور کرد که ادعاهای وحشیانهای داشته باشد.
یکی از نمایندگان متا در پاسخ به سؤالات TechCrunch گفت: «Movie Gen صرفاً یک مفهوم تحقیقاتی هوش مصنوعی در حال حاضر است، و حتی در این مرحله اولیه، ایمنی اولویت اصلی است همانطور که در مورد همه فناوریهای هوش مصنوعی مولد ما بوده است.
برخلاف، مثلاً، مدلهای زبان بزرگ Llama، Movie Gen برای عموم در دسترس نخواهد بود. میتوانید با دنبال کردن مقاله تحقیقاتی، تکنیکهای آن را تا حدودی تکرار کنید، اما کد منتشر نمیشود، به جز «مجموعه دادههای ضروری ارزیابی اساسی»، که به معنای رکوردی است که از چه اعلانهایی برای تولید ویدیوهای آزمایشی استفاده شده است.
ارسال نظر