سایت خبرکاو

جستجوگر هوشمند اخبار و مطالب فناوری

مدل تولید کننده ویدیوی سورا OpenAI می تواند بازی های ویدیویی را نیز ارائه دهد

OpenAI جدید - و اولین! - مدل تولید کننده ویدئو، سورا، می تواند برخی از شاهکارهای سینمایی واقعاً چشمگیر را انجام دهد. اما این مدل حتی از OpenAI هم در ابتدا توانایی بیشتری دارد، حداقل با قضاوت در مقاله فنی که امروز عصر منتشر شد. این مقاله با عنوان «مدل‌های تولید ویدیو به‌عنوان شبیه‌سازهای جهانی» که توسط تعدادی از محققان OpenAI نوشته شده است، جنبه‌های کلیدی معماری Sora را باز می‌کند – به عنوان مثال نشان می‌دهد که ...

OpenAI جدید - و اولین! - مدل تولید کننده ویدئو، سورا، می تواند برخی از شاهکارهای سینمایی واقعاً چشمگیر را انجام دهد. اما این مدل حتی از OpenAI هم در ابتدا توانایی بیشتری دارد، حداقل با قضاوت در مقاله فنی که امروز عصر منتشر شد.

این مقاله با عنوان «مدل‌های تولید ویدیو به‌عنوان شبیه‌سازهای جهانی» که توسط تعدادی از محققان OpenAI نوشته شده است، جنبه‌های کلیدی معماری Sora را باز می‌کند – به عنوان مثال نشان می‌دهد که Sora می‌تواند ویدیوهایی با وضوح و نسبت ابعاد دلخواه تولید کند. تا 1080p). بر اساس این مقاله، Sora قادر است طیف وسیعی از وظایف ویرایش تصویر و ویدئو را انجام دهد، از ایجاد ویدیوهای حلقه‌ای گرفته تا گسترش ویدیوها به جلو یا عقب در زمان و تغییر پس‌زمینه در یک ویدیوی موجود.

اما جالب‌ترین چیز برای این نویسنده، توانایی سورا در «شبیه‌سازی جهان‌های دیجیتال» است، همانطور که نویسندگان OpenAI آن را بیان کردند. در آزمایشی، OpenAI سورا را روی Minecraft رها کرد و از آن خواست جهان - و دینامیک آن، از جمله فیزیک - را در حالی که به طور همزمان بازیکن را کنترل می‌کرد، ارائه دهد.

OpenAI Sora Minecraft

سورا یک بازیکن را در Minecraft کنترل می‌کند - و دنیای بازی‌های ویدیویی را همانطور که این کار را انجام می‌دهد رندر می‌کند. توجه داشته باشید که دانه بندی توسط یک ابزار تبدیل ویدیو به GIF معرفی شده است، نه Sora. اعتبار تصویر: OpenAI

پس چگونه سورا می تواند این کار را انجام دهد؟ خوب، همانطور که توسط محقق ارشد انویدیا، جیم فن (از طریق کوارتز) مشاهده شد، سورا بیشتر یک "موتور فیزیک مبتنی بر داده" است تا یک خلاق. این فقط تولید یک عکس یا ویدیو نیست، بلکه تعیین فیزیک هر جسم در یک محیط است - و بر اساس این محاسبات، یک عکس یا ویدیو (یا دنیای سه بعدی تعاملی، در صورت امکان) ارائه می‌کند.

نویسندگان همکار می نویسند: "این قابلیت ها نشان می دهد که مقیاس گذاری مداوم مدل های ویدئویی مسیری امیدوارکننده به سمت توسعه شبیه سازهای بسیار توانمند دنیای فیزیکی و دیجیتالی و اشیاء، حیوانات و افرادی است که در آنها زندگی می کنند."

اکنون، محدودیت‌های معمول سورا در حوزه بازی‌های ویدیویی اعمال می‌شود. این مدل نمی تواند به طور دقیق فیزیک فعل و انفعالات اساسی مانند خرد شدن شیشه را تقریب کند. و حتی با فعل و انفعالاتی که می‌تواند مدل‌سازی کند، سورا اغلب ناسازگار است - به عنوان مثال نشان دادن شخصی که در حال خوردن یک همبرگر است، اما نمی‌تواند آثار گزش را نشان دهد.

با این حال، اگر من مقاله را به درستی می خوانم، به نظر می رسد که Sora می تواند راه را برای بازی های واقع گرایانه تر - شاید حتی فوتورئالیستی - هموار کند. این به همان اندازه هیجان‌انگیز و وحشتناک است (برای یکی، پیامدهای دیپ‌فیک را در نظر بگیرید) - احتمالاً به همین دلیل است که OpenAI فعلاً سورا را پشت یک برنامه دسترسی محدود انتخاب کرده است.

در اینجا امیدواریم که ما هر چه زودتر بیشتر یاد بگیریم.

خبرکاو