مدل تولید کننده ویدیوی سورا OpenAI می تواند بازی های ویدیویی را نیز ارائه دهد
OpenAI جدید - و اولین! - مدل تولید کننده ویدئو، سورا، می تواند برخی از شاهکارهای سینمایی واقعاً چشمگیر را انجام دهد. اما این مدل حتی از OpenAI هم در ابتدا توانایی بیشتری دارد، حداقل با قضاوت در مقاله فنی که امروز عصر منتشر شد.
این مقاله با عنوان «مدلهای تولید ویدیو بهعنوان شبیهسازهای جهانی» که توسط تعدادی از محققان OpenAI نوشته شده است، جنبههای کلیدی معماری Sora را باز میکند – به عنوان مثال نشان میدهد که Sora میتواند ویدیوهایی با وضوح و نسبت ابعاد دلخواه تولید کند. تا 1080p). بر اساس این مقاله، Sora قادر است طیف وسیعی از وظایف ویرایش تصویر و ویدئو را انجام دهد، از ایجاد ویدیوهای حلقهای گرفته تا گسترش ویدیوها به جلو یا عقب در زمان و تغییر پسزمینه در یک ویدیوی موجود.
اما جالبترین چیز برای این نویسنده، توانایی سورا در «شبیهسازی جهانهای دیجیتال» است، همانطور که نویسندگان OpenAI آن را بیان کردند. در آزمایشی، OpenAI سورا را روی Minecraft رها کرد و از آن خواست جهان - و دینامیک آن، از جمله فیزیک - را در حالی که به طور همزمان بازیکن را کنترل میکرد، ارائه دهد.
پس چگونه سورا می تواند این کار را انجام دهد؟ خوب، همانطور که توسط محقق ارشد انویدیا، جیم فن (از طریق کوارتز) مشاهده شد، سورا بیشتر یک "موتور فیزیک مبتنی بر داده" است تا یک خلاق. این فقط تولید یک عکس یا ویدیو نیست، بلکه تعیین فیزیک هر جسم در یک محیط است - و بر اساس این محاسبات، یک عکس یا ویدیو (یا دنیای سه بعدی تعاملی، در صورت امکان) ارائه میکند.
نویسندگان همکار می نویسند: "این قابلیت ها نشان می دهد که مقیاس گذاری مداوم مدل های ویدئویی مسیری امیدوارکننده به سمت توسعه شبیه سازهای بسیار توانمند دنیای فیزیکی و دیجیتالی و اشیاء، حیوانات و افرادی است که در آنها زندگی می کنند."
اکنون، محدودیتهای معمول سورا در حوزه بازیهای ویدیویی اعمال میشود. این مدل نمی تواند به طور دقیق فیزیک فعل و انفعالات اساسی مانند خرد شدن شیشه را تقریب کند. و حتی با فعل و انفعالاتی که میتواند مدلسازی کند، سورا اغلب ناسازگار است - به عنوان مثال نشان دادن شخصی که در حال خوردن یک همبرگر است، اما نمیتواند آثار گزش را نشان دهد.
با این حال، اگر من مقاله را به درستی می خوانم، به نظر می رسد که Sora می تواند راه را برای بازی های واقع گرایانه تر - شاید حتی فوتورئالیستی - هموار کند. این به همان اندازه هیجانانگیز و وحشتناک است (برای یکی، پیامدهای دیپفیک را در نظر بگیرید) - احتمالاً به همین دلیل است که OpenAI فعلاً سورا را پشت یک برنامه دسترسی محدود انتخاب کرده است.
در اینجا امیدواریم که ما هر چه زودتر بیشتر یاد بگیریم.
ارسال نظر